机器学习实战
文章平均质量分 88
爱抠脚的coder
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯
第四章:基于概率论的分类方法:朴素贝叶斯(1)朴素贝叶斯的基本知识点条件概率:我们具有三个白球和四个黑球,你从这些球中取出白球的概率是3/7;如果现在我在桶A里面装入了两个白色的球和两个黑色的球.很显然桶B里面还有一个白球和两个黑球.我们从桶B里面取出白球的概率1/3!上过概率论的人都知道条件概率P(A|B)表示在B发生的前提下A发生的概率.条件概率的计算公式:P(A|B)=P(A&&am...原创 2018-05-19 21:56:39 · 245 阅读 · 0 评论 -
k-近邻算法
第二章-使用knn改进约会网站的配对效果knn简单来说,其实就是计算我们预测数据跟数据集中的所有数据的距离,这个距离这里使用的是欧氏距离,得到结果之后取出最近的k个数据标签,所占比例最大的那个标签就是对预测数据的预测结果.下面的代码包含以下几个大块:第一:从txt文档读取数据转成numpy的数组.一个是数据,一个是标签,标签对应的是喜欢程度(1,2,3),数据的第一列是每年飞行常客里程数,第二列是...原创 2018-05-13 22:19:50 · 228 阅读 · 0 评论 -
决策树
第三章 决策树下面的代码在trees.py里面填写:知识点一:信息增益or熵熵指的是信息的期望值.信息定义为: 计算所有的类别所有可能包含的信息期望值,n是分类的数目:那么如何计算一个数据集的熵呢?很简单,只需要你统计数据集的类别的总数,每个类别的数目除以总的数据集的个数,就是这个类别的比率,只需要按照上式进行计算即可.函数在calcshannong(dataset)里面.知识点二:通过信息增益划...原创 2018-05-15 22:02:05 · 245 阅读 · 0 评论