自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习实战--fp-growth

接着前面所学的apriori频繁集挖掘,这里介绍一种更高效的发现频繁集的算法fp-growth(frequence pattern),对大数据量时尤其有效(近百万条数据中查找,一般电脑只需2s左右)但fp-growth算法只能用来进行发现频繁集,不能挖掘关联规则。 fp-growth算法主要由两步: 1、构建fp树 2、利用fp树发现频繁集 构建fp树: 构建fp树时,需要扫描数据集2次,

2016-03-28 21:18:06 1036

原创 机器学习实战--数据预处理

当数据量变的特别大,数据特征的维度变得很大时,若不对数据进行一定的预处理,将会使问题求解的速度变得很慢,甚至是无法求解。这里介绍两种数据预处理(降维)的方法:pca和svd 数据降维主要有这几种方法: 1、主成分分析(PCA):PCA实际上是进行坐标的转换,转换后的坐标的第一维选择数据方差最大的方向,第二维选择与第一维正交且数据方差最大的方向,依次重复上述的构造方法,得到第三维,第四维…而数据的

2016-03-27 22:46:49 2343

原创 机器学习实战--apriori

前面主要学习了机器学习的两大块:分类,回归,接下来的两节进入到频繁项集和关联规则的分析。 关联分析中最著名的例子当属啤酒和尿布了。http://www.wtoutiao.com/a/904866.html 为了定义上述的频繁和关联我们引入两个定义: 1、支持度:数据集中包含该集项的记录所占的比例 2、置信度:对于关联规则P–>M,该规则的置信度为:support(P U M) /suppor

2016-03-26 23:04:06 681

原创 机器学习实战--kMeans

前面的几个章节主要学习了监督学习,从这节开始,进入到无监督学习。这节的内容主要有kMeans,kMeans簇的后处理,二分kMeans。一、kMeans1、算法原理: 2、算方法实现: 1、初始质心的选择def randCent(dataSet, k): n = shape(dataSet)[1] centroids = mat(zeros((k,n)))#create ce

2016-03-25 16:26:37 1238 1

原创 机器学习实战--CART

上一节中介绍的回归方法,主要用于线性问题中,但当数据量变大,特征值变多时,这些方法就变得不那么实用了。这一节介绍一下CART(分类回归树)用于回归。主要讲解两种树:回归树和模型数 在学习CART时,可以回顾一下我们前面所讲的决策树: http://blog.csdn.net/sunnyxiaohu/article/details/50826016一、回归树每个叶节点包含单个值 算法原理:

2016-03-24 19:28:17 1468

原创 机器学习实战之--regression

前面主要讲到了分类问题,从这节开始,进入到回归的学习。这节主要介绍几个常用的数值回归算法。 1、线性回归 数据的线性拟合 平方误差损失函数: 回归系数: 主要算法实现:def standRegres(xArr,yArr): xMat = mat(xArr); yMat = mat(yArr).T xTx = xMat.T*xMat if linalg.det(xTx

2016-03-23 22:20:28 1541

原创 shell程序分析--qcd

这是国嵌中的一个小应用,目的在于我们能快速的在各个目录之间进行切换。 参考资料: 1、http://pan.baidu.com/s/1dEd1ZFz linux+命令行+shell脚本编程宝典 2、http://www.linuxidc.com/Linux/2014-03/97826.htm 为了解决shell子进程的环境不能传给父进程(!) 下面我将进行详细的源码分析: qcde:

2016-03-19 22:31:18 1717

原创 机器学习实战--svm

这一节,研究了两天,有些地方,还是不是很明白。这里对于算法原理只做一个简单的纪要,具体可以参考我下面列出的博客,推导的很详细。 参考: 1.http://www.tuicool.com/articles/RRZvYb 2.http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html算法简介: 用一句话来总结其原理:确定一个超

2016-03-16 20:58:18 2418 2

翻译 机器学习之--损失函数

此文章翻译至机器学习的一章讲义: http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf损失函数。 我们能得到一般化的损失函数表达式,如下(14.1),在(14.1)中,我们注意到损失函数有两部分组成:损失项和规则项。我们将会在接下来的章节中介绍这两部分。 一、损失项 在这一节中,

2016-03-16 15:38:40 12530

原创 机器学习实战--adaboost

前面我们已经学了好几个分类算法了(svm后面再讲),分类效果也还不错,但是我们也许会想,能不能在一个数据集上多次应用同一个算法,或者应用不同的算法呢?这就是我们adaboost的思想:通过多个弱分类器的组合,构成一个强分类器。 算法优点: 泛化错误率低,易编码,可应用在大部分分类器上,无需参数的调整 算法缺点: 对离群点很敏感 算法步骤: 这里我们用多个单层分类决策树为例(buildSt

2016-03-13 23:13:13 1065

原创 shell中for循环总结

关于shell中的for循环用法很多,一直想总结一下,今天网上看到上一篇关于for循环用法的总结,感觉很全面,所以就转过来研究研究,嘿嘿… 1、 for((i=1;i<=10;i++));do echo (expr(expr i *4);done 2、在shell中常用的是 for i in $(seq 10) 3、for i in ls 4、for i in arr[@]5、foriin{

2016-03-12 13:27:28 3633

原创 机器学习实战--naive bayes和logistic Regression

前面我们学到的knn和trees都是能确切的确定例子属于哪一类,这一节我们将介绍一种用概率来进行分类的方式。一、朴素贝叶斯(naive bayes)用一句话介绍就是,待测例子属于哪一类的可能性更大,就将待测例子归为哪一类。 先简单的介绍一下概率的基本知识: 假设一共有两类c=0,1;如果p(c=0)>p(c=1),那我们就将该例归为c=0类。反之,归为c=1类。对于多类问题采用相似的解决方法。

2016-03-11 16:53:01 2456

原创 机器学习实战--knn 和trees

最近想学习一下机器学习的算法,同时自己把算法都实现一遍,主要参考《机器学习实战》,用python进行实现,当然,opencv中也集成了这些算法(可以参考:http://blog.csdn.net/xiaowei_cqu/article/details/23782561),可以很方便的我们进行调用,后面我们接着进行学习。一、knnk近邻分类(k-nearest neighbor classificat

2016-03-08 11:42:46 2405

原创 一步一步学网络爬虫(从python到scrapy)

大概花了一个星期的时间,学习了一下网络爬虫的知识,现在使用scrapy能爬一些基本的网页,图片,解决网页编码兼容问题,基础的模拟登陆。对于有些模拟登陆,由于其提交的表单要经过js进行处理后提交;更难的其网页也是经js渲染的,要学会一步步去分析,没有太多的去深入,但我会提到基本的分析方法。 参考文章: 1、http://www.runoob.com/ 一个很好的语言语法入门学习的网站,我主要用其

2016-03-03 11:54:14 36018 3

机器学习讲义(Andrew Ng)

stanford大学机器学习课程同步讲义; 机器学习大师Andrew Ng的讲义

2016-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除