机器学习
文章平均质量分 79
LZH_12345
这个作者很懒,什么都没留下…
展开
-
《机器学习实战》第三章学习笔记(决策树)
一、决策树模型1.1 定义分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点和叶结点。内部结点表示一种特征或属性,叶结点表示一个类。下图是一个决策树模型,圆和方框分别表示内部结点和叶结点。1.2 决策树学习二、特征选择特征选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。通常特征选择的...原创 2018-04-16 10:35:02 · 543 阅读 · 0 评论 -
《机器学习实战》第九章学习笔记(分类树回归CART)
一、CART(Classification And Regression Tree)CART算法既可以用于分类还可以用于回归,CART树的生成就是递归构建二叉决策树的过程,对于回归树用平方误差最小化准则,对于分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树。1.1 回归树的生成1.2 分类树的生成1.2.1 基尼指数1.2.2 分类树的生成1.3 树回归的一般方法(1)...原创 2018-05-08 16:45:07 · 564 阅读 · 0 评论 -
《机器学习实战》第12章学习笔记(FP-growth)
一、FP-growth算法FP-growth基于Apriori构建, 但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作??树的结构之后发现频繁项集或者频繁项对, 即常在一块出现的元素项的集合FP树。这种做法使得算法的执行速度要快于Apriori,通常性能要好两个数量级以上。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都...原创 2018-05-15 20:55:59 · 1258 阅读 · 0 评论 -
《机器学习实战》第8章学习笔记(回归)之预测乐高玩具套装的价格
原文中通过Google提供的API来抓取价格,但由于现在访问不了Google,所以,直接通过文本给的html文件直接读取价格信息。然后进一步进行分析预测。代码实现:# -*- coding: utf-8 -*-"""Created on Mon May 7 09:55:34 2018@author: lizihua"""#from time import sleep#import ...原创 2018-05-07 17:02:04 · 2499 阅读 · 0 评论 -
《机器学习实战》第14章学习笔记(数据约简工具---SVD)
一、SVD基本原理提取这些信息的方法称为奇异值分解(Singular Value Decomposition, SVD )。在很多情况下,数据中的一小段携带了数据集中的大部分信息,其他信息则要么是噪声,要么就是毫不相关的信息。在线性代数中还有很多矩阵分解技术。矩阵分解可以将原始矩阵表示成新的易于处理的形式,这种新形式是两个或多个矩阵的乘积。我们可以将这种分解过程想象成代数中的因子分解。取前r个非零...原创 2018-05-20 20:44:24 · 575 阅读 · 0 评论 -
《机器学习实战》第11章学习笔记(Apriori算法 关联分析)
一、关联分析从大规模数据集中寻找物品间的隐含关系被称作关联分析( association analysis ) 或者关联规则学习(association rule learning)。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequent item sets)是经常出现在一块的物品的集合,关联规则 ( association ru...原创 2018-05-14 10:30:50 · 750 阅读 · 0 评论 -
《机器学习实战》第13章学习笔记(降维技术---PCA)
一、降维技术数据往往拥有大规模的特征。这会导致利用机器学习算法进行分析时,造成很大的困扰。因此,数据降维就显得尤为重要。其优点:使得数据集更易使用;降低很多算法的计算开销;去除噪声;使得结果易懂。常见的降维技术:主成分分析(Principal Component Analysis, PCA )。在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选...原创 2018-05-18 19:27:15 · 555 阅读 · 0 评论 -
《机器学习实战》第八章学习笔记(回归)
一、用线性回归找到最佳拟合直线1.1 线性回归回归的目的是预测数值型的目标值。最直接的方法就是找到回归方程Y=X.T*w。其中w称作回归系数,求这些回归系数的过程就是回归。一个常用的方法就是找出使误差最小的w。这里的误差是指预测y值和真实y值之间的平方差值。由于使用该误差的简单累加将使得正差值和负差值相互抵消,所以我们采用平方误差。回归的一般方法:收集数据:采用任意方法收集数据。准备数据:回归需要...原创 2018-05-05 21:32:21 · 2176 阅读 · 1 评论 -
《机器学习实战》第七章学习笔记(AdaBoost)
一、集成学习集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。集成学习将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能。这对“弱学习器”(weak learner)尤为明显,因此,集成学习的很多理论研究都...原创 2018-05-03 18:57:13 · 1065 阅读 · 0 评论 -
《机器学习实战》第10章学习笔记(k-Means)
一、聚类1.1聚类任务聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)。1.2 性能度量聚类性能度量亦称聚类“有效性指标”(validity index)。与监督学习中的性能度量作用类似,对于聚类结果,我们需要通过某种性能度量来评估其好坏;另一方面,若明确了最终要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。1...原创 2018-05-10 21:17:57 · 1412 阅读 · 1 评论 -
模型的评估与选择
一、评估方法1.1 留出法“留出法”(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即在S上练出模型,用T来评估其测试误差,作为对泛化误差的估计。常见的做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试。更一般的取70%作为训练,30%作为测试。注意:训练/测试集的划分尽可能保持数据分布的一致性,避免因数据划分过程中引入额外的偏差而对最...原创 2018-05-04 11:18:29 · 519 阅读 · 0 评论 -
《机器学习实战》第五章学习笔记(Logistic回归)
利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。一、 Logistic分布二、 Logistic回归模型(二分类模型)其中,sigmoid函数: 换言...原创 2018-04-23 19:39:50 · 544 阅读 · 0 评论 -
《机器学习实战》第六章学习笔记(SVM)
一、支持向量机原理1.1 间隔和支持向量1.2 对偶问题对式6.6,利用拉格朗日乘子法得到其对偶问题:首先得拉格朗日函数:最后利用式6.9消去6.8中的w和b,得对偶问题:二、 SMO算法(Sequential Minimal Optimization)2.1 SMO原理SMO是一个二次规划算法,能高效的解决上述问题。其思路:2.2 简化版SMO算法代码实现:# -*- coding: utf-8...原创 2018-04-26 11:02:16 · 1064 阅读 · 0 评论 -
《机器学习实战》第九章学习笔记(使用Python的Tkinter库创建GUI)
用树来对数据建模,除了把叶节点简单地设定为常数值之外, 还有一种方法是把叶节点设定为分段线性函数,这里所谓的分段线性(piecewise linear )是指模型由多个线性片段组成。如下图所示: 可以设计两条分别从0.0~0.3、从0.3~1.0的直线,于是就可以得到两个线性模型。因为数据集里的一部分数据(0.0~0.3)以某个线性模型建模,而另一...原创 2018-05-09 19:45:32 · 1795 阅读 · 0 评论 -
《机器学习实战》第2章学习笔记2(knn算法)
图像采用文本格式存储,具有相同的色彩和大小: 宽髙是32像素*32像素的黑白图像。实际图像存储在两个子目录内:目录加如trainingDigits中包含了大约2000个例子, 每个数字大约有200个样本;目录testDigits中包含了大约900个测试数据。我们使用目录trainingDigits中的数据训练分类器,使用目录testDigits中的数据来测试分类器的效果。两组数据没有覆盖。代码示例...原创 2018-04-13 16:23:26 · 352 阅读 · 0 评论 -
《机器学习实战》第二章学习笔记1(knn算法)
一、k-近邻分类算法1.1 工作原理存在一个样本数据集合,也称作训练样本集,并且样本集的每个数据都存在标签,即我们知道样本集的每一数据与所属分类的对应关系。输入没有标签的新数据后, 将新数据的每个特征与样本集的数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最...原创 2018-04-12 21:35:55 · 464 阅读 · 0 评论 -
《机器学习实战》第四章学习笔记(朴素贝叶斯)
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率密度分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。一、朴素贝叶斯1.1 基本方法朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯由此得名。具...原创 2018-04-17 21:31:42 · 933 阅读 · 0 评论