机器学习
文章平均质量分 79
修行的猫_zq
Be like a duck, stay calm on the surface but paddle like hell underneath
展开
-
【机器学习实战-python3】使用FP-growth算法来高效 发现频繁项集
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action本章会在上一章讨论话题的基础上进行扩展,将给出一个非常好的频繁项集发现算法。该算法称作FP-growth,它比上一章讨论的Apriori算法要快。它基于Apriori构建,但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在原创 2017-05-05 10:30:44 · 9557 阅读 · 1 评论 -
【机器学习实战-python3】大数据与MapReduce
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、MapReduce:分布式计算的框架 MapReduce 优点:可在短时间内完成大量工作。 缺点:算法必须经过重写,需要对系统工程有一定的理解。 适用数据类型:数值型和标称型数据。Google公司的Jeffrey Dean和Sanjay Ghemawat在2004年的一篇论原创 2017-05-15 17:39:32 · 3520 阅读 · 1 评论 -
【机器学习实战-python3】利用SVD简化数据
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、开篇:简述SVD应用 利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。简而言之,SVD是一种从大量数据中提取主要关键数据的方法。下面介绍几种应用场景: 1、隐性语义索引 最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索原创 2017-05-14 09:56:08 · 5178 阅读 · 5 评论 -
【机器学习实战-python3】利用PCA简化数据
本章是涉及降维主题的两章中的第一章。在降维中,我们对数据进行了预处理。之后,采用其他机器学习技术对其进行处理。 本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、降维技术概述 在已标注与未标注的数据上都有降维技术。这里我们将主要关注未标注数据上的降维技术,该技术同时也可以应用于已标注的数据。大量的数据往往拥有超出显示能力的更多特征。数据显原创 2017-05-14 21:58:55 · 3346 阅读 · 1 评论 -
【机器学习实战-python3】K-均值聚类算法
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、K-均值聚类算法 聚类是一种无监督的学习,它将相似的对象归到同一簇中,类似全自动分类。簇内的对象越相似,聚类的效果越好。K-均值聚类是每个类别簇都是采用簇中所含值的均值计算而成。聚类与分类的区别在于分类前目标已知,而聚类为无监督分类。 K-均值算法的伪代码如下:创建k个点作为起始质心(通常原创 2017-04-21 17:35:38 · 8605 阅读 · 2 评论 -
【机器学习实战-python3】使用Apriori算法进行关联 分析
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action一、背景 从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。 关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项 集或者关联规则。频繁项集(freq原创 2017-05-03 15:46:55 · 34544 阅读 · 20 评论 -
【机器学习实战-python3】Adaboost元算法提高分类性能
工具:PythonCharm 书中的代码是python2的,而我用的python3,结合实践过程,这里会标注实践时遇到的问题和针对python3的修改。 实践代码和训练测试数据可以参考这里 https://github.com/stonycat/ML-in-Action (原书作者也提供了源码,但是存在一些问题,且在python3中有部分修改)————————卖萌= ̄ω ̄=分割线————原创 2017-03-16 21:46:09 · 3159 阅读 · 3 评论 -
【调研笔记】寒假记录 无人机巡检 图像处理方法调研总结
寒假任务之一:调研巡检相关的图像处理技术,如根据无人机采集的图像进行自动检测分析是否存在问题。例子:高铁桥梁检测、楼房墙皮破损等。 ———————————————分割线—————————————————— 就最近阅读的论文,围绕“巡检 图像处理 无人机”三个关键词进行查询,在国内论文搜索上所见相关论文都看了下。国外关键词用了patrol inspection 但是目前没有搜索到相关的技术应用论原创 2017-02-01 19:09:26 · 3479 阅读 · 0 评论 -
【深度学习】 学习收藏的资料汇总(不定期更新中…)
Deep Learning(深度学习){基础学习阶段}深度学习简介:11min 链接:https://www.youtube.com/watch?v=l42lr8AlrHk 这个视频对深度学习进行了数学解释。它将带你了解机器是如何找到不同变量的分组并做出具体决策的。如果你是一个数学爱好者,你将会学到如何调整模型参数。视频简单地解释了神经网络对不同输入内容的反应。1、Youtobe上深度学习简化理原创 2016-11-05 20:24:53 · 1827 阅读 · 0 评论 -
【机器学习实战-python3】树回归
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 本篇博客部分参考Forec blog 一、数据建模问题 前面介绍了贪心算法的决策树,构建算法是ID3,每次选取当前最佳特征来分割数据,并且按照这个特征的所有可能取值来划分,一旦切分完成,这个特征在之后的执行过程中不会再有任何用处。这种方法切分过于迅速,并且需要将连续型数据离散化后才能处理,这原创 2017-04-07 19:20:43 · 10468 阅读 · 10 评论 -
【机器学习实战-python3】缩减系数来“理解”数据
遇到数据特征比样本点还多的情况,不再能使用线性回归的方法,因为计算逆矩阵的时候会出错。 引入岭回归来解决特征数大于样本点个数的情况 一、岭回归 岭回归就是在矩阵XTXX^{T}X中加入λI\lambda I来使矩阵非奇异,今儿能够计算其逆矩阵。矩阵I是一个m维的单位矩阵,对角线元素全为1,λ\lambda是用户定义的一个数值,因此回归系数计算公式为:w=(XTX+λI)−1XTyw=(X^{T原创 2017-03-27 20:13:41 · 2028 阅读 · 0 评论 -
【机器学习实战-python3】支持向量机(Support Vecrtor Machines SVM)
有人认为SVM是最好的现成的分类器,“现成”指的是分类器不加修改即可直接使用,意味着直接应用SVM可以取得较低的错误率,对训练集之外的数据点做出很好的分类决策。 SVM有许多实现,这里介绍其中一种最流行的实现,即序列最小优化(SMO)算法,然后添加kernel函数将SVM拓展到更多数据集。 SVM是基于最大间隔分隔数据,若所给数据是二维的,则分隔线为一条直线,若数据为三维的,则分割线为一个平面,原创 2017-03-02 16:41:50 · 2734 阅读 · 0 评论 -
【机器学习实战-python3】k-近邻算法
虽然现在深度学习大火,但是个人想利用最近的时间系统地学一下机器学习的基础方法,结合Machine Learning in action 一书,在此记录学习实践过程。 工具:PythonCharm 书中的代码是python2的,而我用的python3,结合实践过程,这里会标注实践时遇到的问题和针对python3的修改。 实践代码和训练测试数据可以参考这里 https://github.com原创 2017-02-13 19:37:32 · 5131 阅读 · 2 评论 -
【机器学习实战-python3】基于概率论的分类方法:朴素贝叶斯
通过概率大小来判断分类结果归属,涉及到概率论的条件概率。 p(ci | x,y)=p(x,y | ci)·p(ci)/p(x,y) 比较p(ci | x,y)的大小(i=1,2……)1、从文本中构建词向量#coding=utf-8from numpy import *#文本转化为词向量def loadDataSet(): postingList=[['my', 'dog', 'ha原创 2017-02-26 13:49:15 · 1350 阅读 · 0 评论 -
【机器学习实战-python3】Logistic回归
注释:本篇代码注释部分改为英文,后期我有用英文写blog的 想法,慢慢练习。 假设现在有一些数据点,我们用一条直线对这些点进行拟合(该直线成为最佳拟合直线),这个拟合的过程就成为回归。回归一词来源于最佳拟合,表示找到最佳拟合的参数集,训练分类器就是为了找到最佳拟合参数,使用最优化方法,训练的一个二值型分类器。 Logistic回归过程: 输入数据,转化为结构化的数据,采用任意方法分析数据,训练原创 2017-02-26 17:06:10 · 2470 阅读 · 5 评论 -
【机器学习实战-python3】线性回归
本篇将介绍机器学习中的回归算法(主要是线性回归)。分类输出的结果是标称型的数值(类别值),而回归预测是结果是一组连续值。简而言之,回归与分类的不同在于其目标变量是连续数值型。 本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、线性回归拟合直线 回归的目的是预测数值型的目标值,最简单的办法就是根据输入的数据返回一个计算目标值的公式,所求的公原创 2017-03-18 14:50:23 · 3476 阅读 · 0 评论 -
【机器学习实战-python3】决策树ID3
工具:PythonCharm 书中的代码是python2的,而我用的python3,结合实践过程,这里会标注实践时遇到的问题和针对python3的修改。 实践代码和训练测试数据可以参考这里 https://github.com/stonycat/ML-in-Action (原书作者也提供了源码,但是存在一些问题,且在python3中有部分修改)【决策树算法 ID3】 首先附上修改后的源原创 2017-02-18 20:57:04 · 2230 阅读 · 0 评论