2016年03月_sunnyxiaohu

原创机器学习实战--fp-growth

接着前面所学的apriori频繁集挖掘，这里介绍一种更高效的发现频繁集的算法fp-growth(frequence pattern)，对大数据量时尤其有效（近百万条数据中查找，一般电脑只需2s左右）但fp-growth算法只能用来进行发现频繁集，不能挖掘关联规则。 fp-growth算法主要由两步： 1、构建fp树 2、利用fp树发现频繁集构建fp树：构建fp树时，需要扫描数据集2次，

2016-03-28 21:18:06 1036

原创机器学习实战--数据预处理

当数据量变的特别大，数据特征的维度变得很大时，若不对数据进行一定的预处理，将会使问题求解的速度变得很慢，甚至是无法求解。这里介绍两种数据预处理（降维）的方法：pca和svd 数据降维主要有这几种方法： 1、主成分分析（PCA）：PCA实际上是进行坐标的转换，转换后的坐标的第一维选择数据方差最大的方向，第二维选择与第一维正交且数据方差最大的方向，依次重复上述的构造方法，得到第三维，第四维…而数据的

2016-03-27 22:46:49 2343

原创机器学习实战--apriori

前面主要学习了机器学习的两大块：分类，回归，接下来的两节进入到频繁项集和关联规则的分析。关联分析中最著名的例子当属啤酒和尿布了。http://www.wtoutiao.com/a/904866.html 为了定义上述的频繁和关联我们引入两个定义： 1、支持度：数据集中包含该集项的记录所占的比例 2、置信度：对于关联规则P–>M，该规则的置信度为：support(P U M) /suppor

2016-03-26 23:04:06 681

原创机器学习实战--kMeans

前面的几个章节主要学习了监督学习，从这节开始，进入到无监督学习。这节的内容主要有kMeans，kMeans簇的后处理，二分kMeans。一、kMeans1、算法原理： 2、算方法实现： 1、初始质心的选择def randCent(dataSet, k): n = shape(dataSet)[1] centroids = mat(zeros((k,n)))#create ce

2016-03-25 16:26:37 1238 1

原创机器学习实战--CART

上一节中介绍的回归方法，主要用于线性问题中，但当数据量变大，特征值变多时，这些方法就变得不那么实用了。这一节介绍一下CART（分类回归树）用于回归。主要讲解两种树：回归树和模型数在学习CART时，可以回顾一下我们前面所讲的决策树： http://blog.csdn.net/sunnyxiaohu/article/details/50826016一、回归树每个叶节点包含单个值算法原理：

2016-03-24 19:28:17 1468

原创机器学习实战之--regression

前面主要讲到了分类问题，从这节开始，进入到回归的学习。这节主要介绍几个常用的数值回归算法。 1、线性回归数据的线性拟合平方误差损失函数：回归系数：主要算法实现：def standRegres(xArr,yArr): xMat = mat(xArr); yMat = mat(yArr).T xTx = xMat.T*xMat if linalg.det(xTx

2016-03-23 22:20:28 1541

原创 shell程序分析--qcd

这是国嵌中的一个小应用，目的在于我们能快速的在各个目录之间进行切换。参考资料： 1、http://pan.baidu.com/s/1dEd1ZFz linux+命令行+shell脚本编程宝典 2、http://www.linuxidc.com/Linux/2014-03/97826.htm 为了解决shell子进程的环境不能传给父进程(！) 下面我将进行详细的源码分析： qcde:

2016-03-19 22:31:18 1717

原创机器学习实战--svm

这一节，研究了两天，有些地方，还是不是很明白。这里对于算法原理只做一个简单的纪要，具体可以参考我下面列出的博客，推导的很详细。参考： 1.http://www.tuicool.com/articles/RRZvYb 2.http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html算法简介：用一句话来总结其原理：确定一个超

2016-03-16 20:58:18 2418 2

翻译机器学习之--损失函数

此文章翻译至机器学习的一章讲义： http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf损失函数。我们能得到一般化的损失函数表达式，如下（14.1），在（14.1）中，我们注意到损失函数有两部分组成：损失项和规则项。我们将会在接下来的章节中介绍这两部分。一、损失项在这一节中，

2016-03-16 15:38:40 12530

原创机器学习实战--adaboost

前面我们已经学了好几个分类算法了（svm后面再讲），分类效果也还不错，但是我们也许会想，能不能在一个数据集上多次应用同一个算法，或者应用不同的算法呢？这就是我们adaboost的思想：通过多个弱分类器的组合，构成一个强分类器。算法优点：泛化错误率低，易编码，可应用在大部分分类器上，无需参数的调整算法缺点：对离群点很敏感算法步骤：这里我们用多个单层分类决策树为例（buildSt

2016-03-13 23:13:13 1065

原创 shell中for循环总结

关于shell中的for循环用法很多，一直想总结一下，今天网上看到上一篇关于for循环用法的总结，感觉很全面，所以就转过来研究研究，嘿嘿… 1、 for((i=1;i<=10;i++));do echo (expr(expr i *4);done 2、在shell中常用的是 for i in $(seq 10) 3、for i in ls 4、for i in arr[@]5、foriin{

2016-03-12 13:27:28 3633

原创机器学习实战--naive bayes和logistic Regression

前面我们学到的knn和trees都是能确切的确定例子属于哪一类，这一节我们将介绍一种用概率来进行分类的方式。一、朴素贝叶斯（naive bayes）用一句话介绍就是，待测例子属于哪一类的可能性更大，就将待测例子归为哪一类。先简单的介绍一下概率的基本知识：假设一共有两类c=0,1；如果p(c=0)>p(c=1)，那我们就将该例归为c=0类。反之，归为c=1类。对于多类问题采用相似的解决方法。

2016-03-11 16:53:01 2456

最近想学习一下机器学习的算法，同时自己把算法都实现一遍，主要参考《机器学习实战》，用python进行实现，当然，opencv中也集成了这些算法（可以参考：http://blog.csdn.net/xiaowei_cqu/article/details/23782561），可以很方便的我们进行调用，后面我们接着进行学习。一、knnk近邻分类(k-nearest neighbor classificat

2016-03-08 11:42:46 2405

原创一步一步学网络爬虫（从python到scrapy）

大概花了一个星期的时间，学习了一下网络爬虫的知识，现在使用scrapy能爬一些基本的网页，图片，解决网页编码兼容问题，基础的模拟登陆。对于有些模拟登陆，由于其提交的表单要经过js进行处理后提交；更难的其网页也是经js渲染的，要学会一步步去分析，没有太多的去深入，但我会提到基本的分析方法。参考文章： 1、http://www.runoob.com/ 一个很好的语言语法入门学习的网站，我主要用其

2016-03-03 11:54:14 36018 3

sunnyxiaohu的博客