![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 82
namelessml
这个作者很懒,什么都没留下…
展开
-
[完]机器学习实战 第二章 k-近邻算法(k Nearest Neighbor)
机器学习实战(Machine Learning in Action)第二章内容,罗列了k-近邻算法、从文本文件中解析和导入数据、使用Matplotlib创建散点图、归一化数值等代码,以及本章使用的函数。原创 2016-08-28 13:38:53 · 1001 阅读 · 0 评论 -
[MLLib]一、Spark MLLib介绍
一、机器学习是一门人工智能的科学。利用数据或以往的经验,以此优化计算机程序的性能标准。英文定义: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in原创 2017-01-04 10:36:13 · 5531 阅读 · 0 评论 -
[完]机器学习实战 第十四章 利用SVD简化数据
本章内容:SVD矩阵分解推荐引擎利用SVD提升推荐引擎的性能餐馆可分为很多类别,不同的专家对其分类可能有不同依据。实际中,我们可以忘掉专家,从数据着手,可对记录用户关于餐馆观点的数据进行处理,并从中提取出其背后的因素。这些因素可能会与餐馆的类别、烹饪时采用的某个特定配料,或其他任意对象一致。然后,可利用这些因素来估计人们对没有去过的餐馆的看法。提取这些信息的方法称为奇异值分解(Singula原创 2016-10-31 21:38:11 · 3901 阅读 · 6 评论 -
[完]机器学习实战 第十三章 利用PCA来简化数据
本章内容降维技术主成分分析(PCA,Principal Component Analysis)对半导体数据进行降维处理体育比赛中,人们面对的原本是百万像素的数据,但只有球的三维位置才是最重要的,这就被称为降维(dimensionality reduction)。在低维下,数据更容易进行处理。通常,在应用其他机器学习之前,须先识别出其相关特征。一、降维技术对数据进行简化的原因:多维数据难以显原创 2016-10-26 19:33:41 · 2621 阅读 · 1 评论 -
[完]机器学习实战 第十一章 使用Apriori算法进行关联分析
本章内容:Apriori算法频繁项集生成关联规则生成投票中的关联规则发现从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。寻找物品的不同组合十分耗时,计算代价高,蛮力搜索方法不能解决这个问题。使用Apriori算法可解决这个问题。一、关联分析关联分析是一种在大规模数据集中寻找原创 2016-10-01 21:02:10 · 4151 阅读 · 2 评论 -
机器学习实战 第十章 利用K-均值聚类算法对未标注数据分组
# coding=utf-8from numpy import *def loadDataSet(fileName) : dataMat = [] fr = open(fileName) for line in fr.readlines() : curLine = line.strip().split('\t') fltLine = map(f原创 2016-09-28 22:40:59 · 1228 阅读 · 1 评论 -
[完]机器学习实战 第九章 树回归
将数据集切分成很多份易建模的数据,然后利用线性回归技术建模。如果首次切分后仍难以拟合线性模型就继续切分,在这种切分模式下,树结构和回归法相当有用。CART(分类回归树)算法,用于构建二元树并处理离散型或连续性数据的切分。两种剪枝技术,预剪枝和后剪枝。利用Tkinter绘制GUI。将Matplotlib集成在Tkinter绘制的GUI中。原创 2016-09-20 13:33:06 · 7530 阅读 · 5 评论 -
机器学习实战 第八章 预测数值型数据:回归(Regression)
首先介绍线性回归,然后引入局部平滑技术,更好地拟合数据。接着探讨回归在“欠拟合”情况下的缩减(shrinkage),探讨偏差和方差的概念。用线性回归找到最佳拟合直线优点:结果已于理解,计算上并不复杂。 缺点:对非线性的数据拟合不好。 使用数据类型:数值型和标称型。回归方程(regression equation),回归系数(regression weights),求回归系数的过程就是回归。说到回原创 2016-09-16 12:11:27 · 4541 阅读 · 1 评论 -
[完]机器学习实战 第七章 利用AdaBoost元算法提高分类性能
【参考书籍】机器学习实战(Machine Learning in Action)AdaBoost,一种元算法(meta-algorithm)或者集成方法(ensemble method),是对其他算法进行组合的一种方式。有人认为AdaBoost是最好的监督学习的方法。使用集成算法时,可是不同算法的集成,也可是同一算法在不同设置下的集成,还可是数据集不同部分分配不同分类器之后的集成。优点:泛化错误率原创 2016-09-14 11:44:29 · 2463 阅读 · 2 评论 -
[完]机器学习实战 第一章 机器学习基础(Maching Learning Foundation)
训练集:为算法输入大量已分类数据作为算法的训练集。目标变量:是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型、离散型的,而在回归算法中通常是连续型的。分类(Classification)和回归(Regression)监督学习:分类和回归通常属于此类学习,这类算法必须知道预测什么,即目标变量的分类信息。无监督学习:数据没有类别信息,也不给定目标值。在无监督学习中,将数据集合分成原创 2016-08-29 11:15:38 · 620 阅读 · 0 评论 -
[完]机器学习实战 第三章 决策树(Decision Tree)
本章介绍了什么是决策树,如何构建决策树,构建决策树时选择哪个特征划分数据,根据什么(香农熵)划分数据。介绍了信息论里的基本概念:熵、信息增益。用字典存储决策树,程序实现了决策树。并且介绍了如何使用matplotlib如何图形化显示决策树。原创 2016-08-30 13:32:36 · 1722 阅读 · 0 评论 -
[完]机器学习实战 第四章 基于概率论的分类方法:朴素贝叶斯(Naive Bayesian Classification)
介绍了基于概率论的分类方法--朴素贝叶斯。朴素:条件独立性、特征同等重要。程序实现了对文本进行分类,准备数据:从文本中构建词向量;训练算法:从词向量计算概率;构建分类器,下溢出,去自然对数。示例介绍垃圾邮件过滤,获取区域倾向,并且使用留存交叉验证。并且介绍一个获取RSS源的包和方法。原创 2016-09-02 21:00:42 · 1559 阅读 · 0 评论 -
[完]机器学习实战 第六章 支持向量机(Support Vector Machine)
支持向量机(Support Vector Machine)是最好的现成的分类器,“现成”指的是分类器不加修改即可直接使用。基本形式的SVM分类器就可得到低错误率的结果。SVM有很多实现,文中采用最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,一种求解支持向量机二次规划的算法)算法,还会介绍如何使用一种称为核函数(kernel)的方式将SVM扩展到更多的数据集上。原创 2016-09-06 23:03:48 · 2872 阅读 · 1 评论 -
[完]机器学习实战 第五章 Logistic回归(Logistic Regression)
Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可由最优化算法来完成,一般采用梯度上升算法,此算法又可简化为随机梯度上升算法。简化前后的算法效果相当,但占用更少的计算资源。并且随机梯度上升算法是一个在线算法,可在新数据到来时就完成参数的更新,而无需重新读取整个数据集来进行批处理。机器学习的一个重要问题是处理缺失数据,处理方法取决于实际需求。原创 2016-09-04 11:16:04 · 2975 阅读 · 2 评论 -
[MLLib]二、MLLib基本数据类型
MLLib提供了一系列基本数据类型以支持底层的机器学习算法。主要类型包括:本地向量、标注点(Labeled Point)、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵,以及基于一个或多个RDD的分布式矩阵。其中本地向量与本地矩阵作为公共接口提供简单数据模型,底层的线性代数操作有Breeze库和jblas库提供。标注点类型用来表示监督学习(Supervised Leaning)中的一个训练样本原创 2017-01-04 16:10:50 · 695 阅读 · 0 评论