关闭

【机器学习实战-python3】大数据与MapReduce

本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、MapReduce:分布式计算的框架 MapReduce 优点:可在短时间内完成大量工作。 缺点:算法必须经过重写,需要对系统工程有一定的理解。 适用数据类型:数值型和标称型数据。 Google公司的Jeffrey Dean和Sanjay Ghemawat在2004年的一篇论...
阅读(249) 评论(0)

【机器学习实战-python3】利用PCA简化数据

本章是涉及降维主题的两章中的第一章。在降维中,我们对数据进行了预处理。之后,采用其他机器学习技术对其进行处理。 本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、降维技术概述 在已标注与未标注的数据上都有降维技术。这里我们将主要关注未标注数据上的降维技术,该技术同时也可以应用于已标注的数据。大量的数据往往拥有超出显示能力的更多特征。数据显...
阅读(174) 评论(0)

【机器学习实战-python3】利用SVD简化数据

本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、开篇:简述SVD应用 利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。简而言之,SVD是一种从大量数据中提取主要关键数据的方法。下面介绍几种应用场景: 1、隐性语义索引 最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索...
阅读(184) 评论(0)

【机器学习实战-python3】使用FP-growth算法来高效 发现频繁项集

本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action本章会在上一章讨论话题的基础上进行扩展,将给出一个非常好的频繁项集发现算法。该算法称作FP-growth,它比上一章讨论的Apriori算法要快。它基于Apriori构建,但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在...
阅读(378) 评论(0)

【机器学习实战-python3】使用Apriori算法进行关联 分析

本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action一、背景 从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。 关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项 集或者关联规则。频繁项集(freq...
阅读(523) 评论(0)

【机器学习实战-python3】K-均值聚类算法

本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、K-均值聚类算法 聚类是一种无监督的学习,它将相似的对象归到同一簇中,类似全自动分类。簇内的对象越相似,聚类的效果越好。K-均值聚类是每个类别簇都是采用簇中所含值的均值计算而成。聚类与分类的区别在于分类前目标已知,而聚类为无监督分类。 K-均值算法的伪代码如下:创建k个点作为起始质心(通常...
阅读(341) 评论(0)

【机器学习实战-python3】树回归

本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 本篇博客部分参考Forec blog 一、数据建模问题 前面介绍了贪心算法的决策树,构建算法是ID3,每次选取当前最佳特征来分割数据,并且按照这个特征的所有可能取值来划分,一旦切分完成,这个特征在之后的执行过程中不会再有任何用处。这种方法切分过于迅速,并且需要将连续型数据离散化后才能处理,这...
阅读(675) 评论(0)

【论文笔记】CHI '16 Embracing Error to Enable Rapid CrowdSourcing

最近读到一篇显著提升标记数据速度的文章,原文Embracing Error to Enable Rapid Crowdsourcing 本篇博客记录个人对论文的总结和翻译理解,如有不足之处欢迎指正。Embracing Error to Enable Rapid Crowdsourcing ——————————————————————————————————————————————— 一作是来自...
阅读(282) 评论(0)

【机器学习实战-python3】缩减系数来“理解”数据

遇到数据特征比样本点还多的情况,不再能使用线性回归的方法,因为计算逆矩阵的时候会出错。 引入岭回归来解决特征数大于样本点个数的情况 一、岭回归 岭回归就是在矩阵XTXX^{T}X中加入λI\lambda I来使矩阵非奇异,今儿能够计算其逆矩阵。矩阵I是一个m维的单位矩阵,对角线元素全为1,λ\lambda是用户定义的一个数值,因此回归系数计算公式为:w=(XTX+λI)−1XTyw=(X^{T...
阅读(234) 评论(0)

【论文笔记】CSCW2017 A Glimpse Far into the Future:Understanding Long-term Crowd Worker Quality

原文出处 CSCW2017 What Works in Crowd Work 部分 http://dl.acm.org/citation.cfm?id=2998248&CFID=741971565&CFTOKEN=98940772 本篇记录个人论文阅读笔记,翻译和个人理解结合,有不足之处欢迎指正。一、Abstract摘要 微型任务众包在大数据集的创建中变得至关重要。参与众包的工作人员需...
阅读(272) 评论(0)

【Linux Shell编程】Part1(基础) Linux命令行

这里记录个人学习linux shell编程的相关学习笔记,操作系统为ubuntu16.04LTS,参考书籍linux命令行与shell脚本大全 的 一、基本bash shell命令 1、man 命令 man 命令用来访问linux系统上的手册页面,在想要查找的工具名称前面加man,就可以找到那个工具相对应的所有手册条目。如查看ls下对应的手册条目:man ls 例如:man sudo...
阅读(140) 评论(0)

【机器学习实战-python3】线性回归

本篇将介绍机器学习中的回归算法(主要是线性回归)。分类输出的结果是标称型的数值(类别值),而回归预测是结果是一组连续值。简而言之,回归与分类的不同在于其目标变量是连续数值型。 本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action 一、线性回归拟合直线 回归的目的是预测数值型的目标值,最简单的办法就是根据输入的数据返回一个计算目标值的公式,所求的公...
阅读(361) 评论(0)

【机器学习实战-python3】Adaboost元算法提高分类性能

工具:PythonCharm 书中的代码是python2的,而我用的python3,结合实践过程,这里会标注实践时遇到的问题和针对python3的修改。 实践代码和训练测试数据可以参考这里 https://github.com/stonycat/ML-in-Action (原书作者也提供了源码,但是存在一些问题,且在python3中有部分修改)————————卖萌= ̄ω ̄=分割线————...
阅读(278) 评论(0)

【深度学习】Tensorflow学习记录(一) softmax regression mnist训练

之前学了2个月的caffe,最近打算开始学一些TensorFlow,这里记录相关的学习、实践测试笔记。入门笔记TensorFlow是由Google开发第二代(基于DistBelief)分布式的机器学习算法实现框架和部署系统,前端支持Python,C++,Go,Java等多种语言,后端使用C++,CUDA等写成,可在众多异构系统上方便地移植,CPU,GPU集群,iOS,Android等。 Githu...
阅读(377) 评论(0)

【机器学习实战-python3】支持向量机(Support Vecrtor Machines SVM)

有人认为SVM是最好的现成的分类器,“现成”指的是分类器不加修改即可直接使用,意味着直接应用SVM可以取得较低的错误率,对训练集之外的数据点做出很好的分类决策。 SVM有许多实现,这里介绍其中一种最流行的实现,即序列最小优化(SMO)算法,然后添加kernel函数将SVM拓展到更多数据集。 SVM是基于最大间隔分隔数据,若所给数据是二维的,则分隔线为一条直线,若数据为三维的,则分割线为一个平面,...
阅读(313) 评论(0)
29条 共2页1 2 下一页 尾页
    个人资料
    • 访问:29743次
    • 积分:556
    • 等级:
    • 排名:千里之外
    • 原创:29篇
    • 转载:0篇
    • 译文:0篇
    • 评论:8条
    博客公告
    最新评论