机器学习
文章平均质量分 94
源码和数据集下载地址:https://github.com/TimePickerWang/MachineLearningInAction(书中的代码是python2的,且有不少错误,这里代码是我用python3写的,且都能直接运行)
雨破尘
B What I Wanna B
展开
-
机器学习(三):逻辑回归之从理论到实践
一、基本理论 逻辑回归是一个二值型的分类器,它是利用Sigmoid函数来进行分类的,Sigmoid函数的表达式如下: g(z)=11+e−zg(z)=11+e−zg(z) = \frac{1}{1+e^{-z}} 其函数图像如下图: 结合表达式可以知道: 当z=0时,g(z)=0.5当z=0时,g(z)=0.5当z=0时,g(z)=0.5 当z>0时,g(z)>0....原创 2018-06-09 17:22:05 · 618 阅读 · 0 评论 -
机器学习(二):决策树之ID3
文中的代码和数据集下载地址: https://github.com/TimePickerWang/MachineLearningInAction 介绍决策树之前先介绍两个信息论里的概念:熵和信息增益。 1.熵:代表了信息的混乱程度。也就是说熵越高,混合的数据越多,越无序。熵的计算方式如下: H=−∑ni=1p(xi)log2p(xi)H=−∑i=1np(xi)log2p(xi)H=-...原创 2018-06-02 17:14:49 · 453 阅读 · 0 评论 -
机器学习(一):k-近邻算法(kNN)
k-近邻算法是一个比较简单的算法,它的基本思路是这样的:存在一个样本数据集(即训练集),样本集中的每个样本都存在标签(目标变量),即我们知道样本集中每一数据与所属分类的对应关系。在输入没有标签的新数据后,将新数据和样本集中的每个样本进行比较,然后用算法提取样本集中和待分类样本最相似的前k个样本,然后选择k个最相似样本中出现次数最多的类别,作为待分类样本的类别。 那么,怎么判断两个样本的相似程度呢...原创 2018-05-23 15:56:09 · 483 阅读 · 0 评论