机器学习
文章平均质量分 62
flowertree花树
恰同学少年,风华正茂。
展开
-
机器学习day5 机器学习实战决策树的实现预测隐形眼镜类型
今天中午开始实现决策树ID3的实现,KNN的缺点是不能体现数据的意义,全部数据全部归一化,决策树能体现数据的意义,根据数据分类。先用一个一般的数据测试一下,隐形眼镜类型只不过是增加了一步从文件中提取数据这一步,其他步骤一模一样。用matplotlib图形化展示效果特别好,但是特别费劲,没有一些特别麻烦的函数,所以这里不再给出,时间问题没能整明白,参考《机器学习实战》。将在以后的学习原创 2016-03-15 22:25:46 · 411 阅读 · 0 评论 -
机器学习day14 机器学习实战树回归之CART与模型树
这几天完成了树回归的相关学习,这一部分内容挺多,收获也挺多,刚刚终于完成了全部内容,非常开心。树回归这一章涉及了CART,CART树称作(classify and regression tree) 分类与回归树,既可以用于分类,也可以用于回归。这正是前面决策树没有说到的内容,在这里补充一下。正好也总结一下我们学的3种决策树。ID3:用信息增益来选择特性进行分类,只能处理分类问题。缺点是往往原创 2016-04-08 22:28:22 · 2352 阅读 · 2 评论 -
机器学习day15 机器学习实战聚类之k均值聚类算法
这两天学习了非监督学习的聚类算法,k均值聚类和优化版二分k均值聚类,最后在地图上实现一个聚类小应用。k均值聚类称为kmeans,是一种非监督学习的算法,下面写一下对监督学习和非监督学习的理解。监督学习:分为训练集和测试集,每个数据有不同的特性和标签,标签分为连续型或者标称型,我们通过一定的方法对训练集进行训练,总结出数据潜在的规律,对数据进行预测,连续性数据的预测称为回归,标称型数据的预测原创 2016-04-12 22:35:15 · 2711 阅读 · 1 评论 -
机器学习day11 机器学习实战重新理解决策树与C4.5
今天看了决策树的一个视频,比以前理解的更深了,《机器学习实战》书上说的还是太浅显,在这里记下自己重新理解的决策树。在使用决策树的时候,会出现一种情况,当因子很多的特性和因子少的特性相比。决策树选择会偏向因子多的特性,这样会出现过拟合的情况,提高我们的建树难度,树的分支会更多。原因:因为分类细的情况下,极限情况下有多少组样本就会有多少因子,这样分类过细,混乱程度小,香农熵也会很小,这样信息增原创 2016-03-28 13:27:16 · 296 阅读 · 0 评论 -
机器学习day16 机器学习实战Apriori算法进行关联分析
上一章学习了非监督学习的聚类,聚类算法可以将不同性质的分类分开。这两天学习了apriori算法进行关联分析,感觉是目前最难理解的一章了,并且书中还有个很坑爹的错误,作者存在很大的疏忽。Apriori算法关联分析:从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。关联分析应用1:我们以前学习的是根据特性进行分类或者回归预测,并没有挖掘特性之间的关系,关联分析可以用于分析数据原创 2016-04-16 23:29:28 · 3322 阅读 · 1 评论 -
机器学习 梯度下降法
转载的他人的一篇文章。回归(regression)、梯度下降(gradient descent)本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言:上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看转载 2016-05-03 21:52:32 · 274 阅读 · 3 评论 -
机器学习day17 机器学习实战FP-growth挖掘频繁项集
这两天进行了fp-growth的学习,这块知识确实很难理解,书上只是搪塞了这一块的细节,并且作者还有一个疏忽,导致一个很大的错误出现,这在后面会提到。这让读者很是费解,网上的资料或者博客也并没有介绍实现的细节,大多复制粘贴,这两天一直在研究这个算法,这篇文章可能写的不是很清楚,但可能是网上目前介绍fp-growth思想的最好的文章了,如果看了其他fp-growth的介绍没有看懂可以看下,建议之前有原创 2016-04-21 12:05:29 · 753 阅读 · 1 评论 -
机器学习-主成分分析PCA新的理解
这两天重新看了PCA的相关知识,重新理解了下数学推导,这篇文章把该讲的都讲了,附上链接。下面是一点理解,再迷惑的时候看看。http://blog.codinglabs.org/articles/pca-tutorial.html根据上述推导,我们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列,这样我们就达到了优化目原创 2016-06-26 16:39:32 · 255 阅读 · 0 评论 -
机器学习day4 机器学习实战决策树的原理ID3
今天学习了机器学习关于决策树的内容,有个简单的测试实例明天上午实现写上来,今晚先写实现原理和个人的想法。决策树很像if else 的结构,不过分支不一定只有两个,可能会根据特性分成很多分支。叶子节点为最后的分类集合,其余节点为待分类的数据集。要点1:如何选择特性进行分类?要点2:如果特性都在之前分类过但是叶子节点还需要继续分类?1:首先介绍熵的概念,熵代表数据的混乱程度,如果全原创 2016-03-14 22:17:13 · 247 阅读 · 0 评论 -
机器学习day1 python的安装及实现一个机器学习小应用
下定决心学习机器学习这个方向,刚刚买了两本书《统计学习方法》和《机器学习系统设计》,半个月后还有机器学习的招聘。。。逼到了绝路上啊。。。先是安装了python的环境,anaconda,下载地址https://www.continuum.io/downloads 。《机器学习系统设计》这本书第一章的例子http://www.gumpcs.com/index.php/archives/22原创 2016-03-01 09:43:10 · 267 阅读 · 0 评论 -
机器学习day10 机器学习实战logistic回归的原理理解
刚刚取饭的时候在路上突然懂了logistic的原理,很神奇。有个error值 如果改变了就朝着改变的方向修改w这个拟合参数 不改变的话就不改变w 因为error = lavels[i] - sigmoid(w * x)如果原来lavels[i]为1 sigmoid为0 则error为1 wei朝着lavels的方向变化 error为0则不改变 这样只是朝着向最佳拟合参数w的方向改变原创 2016-03-24 13:23:49 · 278 阅读 · 0 评论 -
机器学习day6 机器学习实战朴素贝叶斯的理解
公式参见《统计学习方法》 分母都一样,不具备区分能力,省略后因为特性独立,可以进行朴素贝叶斯公式。因为 公式为p(Y = ck)*p(x1|y = ck)*p(x2|y = ck).....当特性多的时候p(Y = ck)只是前面一项,不具备主导能力,所以不用在意Y,ck分类在全部集合中的比例。朴素贝叶斯 就是求测试数据在数据集中的匹配度概率大的匹配度大当特性的概率为0是,也就原创 2016-03-16 21:25:54 · 192 阅读 · 0 评论 -
机器学习day12 机器学习实战adaboost集成方法与重新进行疝马病的预测
我们再决定一个重要的事情时,往往不是听取一个人的意见,听取大家的意见,然后投票表决最终结果。这一个特点也可以应用于机器学习的算法中来,每一个人都是弱的分类器,若是指一个人的力量很小,很多人汇集在一起就构成了强分类器。好比政府的投票系统。有一个有趣的现象,若每个人都有51%的几率选择正确,则汇集很多人的投票信息之后选择正确的人比选择错误的人多很多,我们认为多数人的选择是正确的,选择错误的人很难扳原创 2016-03-30 15:40:05 · 1459 阅读 · 1 评论 -
机器学习day7 机器学习实战朴素贝叶斯分类器的实现
经历了3天,玩梦幻西游手游浪费了不少时间,在这里自我检讨,赶在睡觉之前完成了朴素贝叶斯分类器的实现,总算能睡个好觉,明天和同学出去自习,搞定逻辑回归。书上赘述了一大堆铺垫,关于公式的理解和朴素贝叶斯的原理上一篇已经有解释。这里只给出代码实现。因步骤太过繁琐,和书上基本一致。室友在睡觉,早点睡,直接上代码,代码里有注释。ps:数据集下载csdn中《机器学习实战》的数据选第四章,把emai原创 2016-03-19 23:18:42 · 377 阅读 · 1 评论 -
机器学习day8 机器学习实战之逻辑回归
今天看了逻辑回归这一章,但是还是不太懂原理和公式,看了这位兄弟的博客,感觉写的太好了。转载一下http://blog.csdn.net/zouxy09/article/details/20319673原创 2016-03-20 21:54:27 · 199 阅读 · 0 评论 -
机器学习day13 机器学习实战线性回归
这两天学习了线性回归的知识,这部分知识还是比较简单的。相关系数的计算:有柯西不等式可以得到相关系数的绝对值|r| 0说明x,y同增,r原创 2016-04-03 19:48:14 · 581 阅读 · 1 评论 -
python-numpy tile函数的应用
numpy一直差异的一个函数,今天终于了解了tile函数的用法。tile(A, (维度扩充的倍数, 每一维扩充的倍数))用法例如>>> a=[[1,2],[2,3]]>>> tile(a,[1,2])array([[1, 2, 1, 2], [2, 3, 2, 3]])>>> tile(a,[2,2])array([[1, 2, 1,原创 2016-03-11 12:42:52 · 247 阅读 · 0 评论 -
机器学习day2 机器学习实战kNN第一个实例
拖了很久本该写下的,前几天学习了python的基本操作和numpy,matplotlib库等。昨天实现了一个《机器学习实战》的例子,很好的一本书,讲解很清晰并且csdn能下载全套的数据。原创 2016-03-13 10:46:06 · 503 阅读 · 0 评论 -
机器学习day3 机器学习实战kNN约会网站的预测
从昨天中午开始整这个kNN,昨天晚上一直没吃饭终于整好,无数次的失败,成功之后很开心。数据集在csdn可以下载到,放在执行python的目录里。通过数据分析出3类人,没有魅力的,有点魅力的,极具魅力的。这里关键是给出操作的步骤,忽略的细节请参考《机器学习实战》step1:首先是数据的获取,将下载好的数据放在python的目录中,名字为'datingTestSet2.txt'原创 2016-03-13 11:31:49 · 371 阅读 · 0 评论 -
机器学习day9 机器学习实战logistic回归和疝马病的预测
今天完成了疝马病的预测,结果符合书上预期,原理还是不太懂。有机会问问大神们吧。实在没有精力贴过程了,贴个代码吧,操作和书上一样。注意矩阵相乘用numpy的操作,mat。注意在线算法和离线算法的区别。这个数据集有数据缺失用0补齐,注意为什么用0,书上有介绍。原创 2016-03-23 21:48:07 · 401 阅读 · 0 评论 -
机器学习day11 logistic回归的截距
tips:有个很重要的点是特性x0设为1,w0为截距,z=w0+w1x1+....原创 2016-03-25 09:04:30 · 2300 阅读 · 0 评论