实践1:统计学习方法
CopperDong
纯属巧合
展开
-
第二章——用Python实现感知器模型(MNIST数据集)
最近在读NLP相关论文,发现最新的NLP基本都是利用机器学习的方法对自然语言进行处理,于是想要多了解了解机器学习的知识。看到很多人推荐李航博士的《统计学习方法》一书,于是打算以此书作为机器学习入门教程,并想尽量实现书中的每一个模型。感知器模型感知器模型感知器模型就不详述了,具体内容可以看《统计学习方法》第二章。这里只将书中感知器学习算法贴出来算法中感知器模型是一个sigmoid转载 2017-09-09 09:31:55 · 2980 阅读 · 1 评论 -
从贝叶斯方法谈到贝叶斯网络
从贝叶斯方法谈到贝叶斯网络0 引言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如《数理统计学简史》,以及《统计决策论及贝叶斯分析 James O.Berger著》等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下转载 2017-11-05 21:59:15 · 379 阅读 · 0 评论 -
《机器学习:算法原理和编程实践》2:中文文本分类
1、文本挖掘与文本分类的概念 简言之,文本挖掘就是从非结构化的文本中寻找知识的过程。其7个主要领域如下:搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎和关键字搜索。文本聚类:使用聚类方法,对词汇、片段、段落或文件进行分组和归类。文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,经过训练地标记示例模型。Web挖掘:在互联网上进行数据和文本挖掘,并特别关注...原创 2018-07-07 14:50:35 · 809 阅读 · 0 评论 -
《机器学习:算法原理和编程实践》3:决策树的发展
1、决策树的算法框架决策树的主函数计算最优特征子函数:ID3用信息增益、C4.5用信息增益率、CART用节点方差的大小等。信息熵:用来表示任何一种能量在空间中分布的均匀程度。能量分布得越均匀,熵就越大。在决策树中,它不仅能用来度量类别的不确定性,也可以用来度量包含不同特征的数据样本与类别的不确定性。CART算法是目前决策树算法中最为成熟的一类算法,应用范围也比较广泛。 在回归树中,数据集...原创 2018-07-07 15:22:15 · 1058 阅读 · 0 评论 -
《机器学习:算法原理和编程实践》4:推荐系统原理
2、协同过滤及其算法 协同过滤通过用户和产品及用户的偏好信息产生推荐的策略,最基本的策略有两种:一种是找到具有类似品位的人所喜欢的物品;另一种是从一个人喜欢的物品中找出类似的物品。这就是两个最知名的类别推荐技术:基于用户的推荐技术和基于物品的推荐技术,它们被称为协同过滤。 协同过滤可以利用用户和物品的信息来预测用户的好恶,并发现新的用户还不知道的东西,形成促销策略。这就完成了推荐系...原创 2018-07-07 15:57:51 · 726 阅读 · 0 评论