机器学习实战
ccccCi归宿
这个作者很懒,什么都没留下…
展开
-
《机器学习实战》-Logistic回归(1)
Logistic回归引言书中上来就谈及最优化算法,在我现在的了解里,logistic回归会用到优化算法。logistic回归解决分类问题,就是利用其建立数据的分类分界线而这个分类分界线可能会存在很多,寻找到最好的那个就应该是最优化的问题单位阶跃函数、sigmoid函数,这两个函数具备一定的相似性,由于单位阶跃函数不连续不容易处理,所以用sigmiod函数替代我们希望能够原创 2018-01-30 20:55:22 · 246 阅读 · 0 评论 -
《机器学习实战》-Logistic回归(2)
Logistic回归示例:从疝气病症预测病马的死亡率数据缺失此示例的数据存在缺失性的问题,所以首先应该解决这个问题 对于某些特征缺失的,如果该特征一般不会取0,那可以用0代替该特征值,在更新梯度公式中,如果该特征值为0,则不会更改其权重值。 对于某些类别缺失的,可以直接将该数据丢弃。测试算法def classifyvector(inx,weight):原创 2018-02-01 20:04:31 · 272 阅读 · 0 评论 -
《机器学习实战》-决策树-画决策树图
def createplot(intree): fig = plt.figure(1, facecolor='white') fig.clf() axprops = dict(xticks=[],yticks=[]) createplot.ax1 = plt.subplot(111, frameon=False,**axprops) plottree.tot原创 2018-01-26 23:31:16 · 1166 阅读 · 1 评论 -
《机器学习实战》-支持向量机(1)
支持向量机几个概念序列最小优化核函数线性可分 -数据可以被分割分割超平面-划分数据的超平面间隔-数据到分割面的距离支持向量-离分割超平面最近的点寻找最大间隔寻找最大间隔线,说明数据点到该线的距离应该尽可能远 但是应该注意,分割线某侧的数据值乘以特征应该为负值(下一小节),所以该线应该在两组数据之间的前提下,尽可能最大分类器求原创 2018-02-04 13:54:54 · 238 阅读 · 0 评论 -
《机器学习实战》-朴素贝叶斯(1)
朴素贝叶斯本章概念概率分布朴素贝叶斯分类器前言应利用分类器给出最优的判定结果,同时给出这个判定的概率估计值 概率分类器-假设两个实例词向量分类垃圾邮件分类1.基于贝叶斯决策理论的方法分类贝叶斯决策理论,计算某数据从属于A类的概率与属于B类的概率,选择概率大的那个类别。2.条件概率p(c|x)3.使用条件概率来分类原创 2018-01-28 21:29:16 · 446 阅读 · 0 评论 -
《机器学习实战》-朴素贝叶斯(2)
朴素贝叶斯通过上次的模型建立,已经可以进行简单的分类,下面将进行另外一个示例的学习—–使用朴素贝叶斯过滤垃圾邮件1.准备数据:切分文本1)string.split() 根据空格切分 2)regEx=re.compile(‘\w*’) regEx.split(string) 分隔符为除字母数字以外的任意字符串 3)利用判定字符串长度大于零,去除掉空字符串 4)利用原创 2018-01-29 18:25:52 · 229 阅读 · 0 评论