![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习实战系列
文章平均质量分 80
一头食量超大的小猪
要吃要玩更要学
展开
-
机器学习实战之adaboost
1.概念定义(1)元算法(meta-algorithm)/集成方法(ensemble method): 是对其他算法进行组合的一种方式.有多种集成方式:不同算法的集成;同一算法在不同设置下的集成数据集不同部分分配给不同分类器之后的集成(2)单层决策树(decision stump ): 是一个只有一个节点的决策树;仅仅基于单个特征来做决策.只有一个分裂过程.例如大于5的为类型1原创 2016-04-04 11:15:54 · 1253 阅读 · 0 评论 -
机器学习实战之SVD
1. 奇异值分解 SVD(singular value decomposition)1.1 SVD评价 优点: 简化数据, 去除噪声和冗余信息, 提高算法的结果 缺点: 数据的转换可能难以理解1.2 SVD应用(1) 隐性语义索引(latent semantic indexing, LSI)/隐性语义分析(latent semantic analysis, LSA)原创 2016-04-20 19:30:58 · 2951 阅读 · 2 评论 -
机器学习实战之PCA
1. 向量及其基变换1.1 向量内积(1)两个维数相同的向量的内积定义如下: 内积运算将两个向量映射为一个实数.(2) 内积的几何意义 假设A\B是两个n维向量, n维向量可以等价表示为n维空间中的一条从原点发射的有向线段, 为方便理解, 在这里假设A和B都是二维向量.A=(x1,y1) , B=(x2,y2),在二维平面上A/B可以用两条发自原点的有向线段表示,如原创 2016-04-20 11:01:15 · 2719 阅读 · 1 评论 -
机器学习实战之k-means
1. 分类和聚类分类的目标事先已知,聚类产生的结果和分类一样,但是其类别没有预先定义。聚类是无监督的,无监督学习没有训练过程。聚类分析就是将相似对象归入同一簇,不相似对象分到不同簇。相似取决于所选择的相似度计算方法,算法性能将会受到相似度计算方法的影响。2. k-均值聚类算法(1)定义k-means是发现给定数据集的k个簇的算法。簇个数k用户指定,每一个簇通过其质心即簇中所有点原创 2016-04-18 14:53:35 · 740 阅读 · 0 评论 -
机器学习实战之树回归
1. 两种树构建算法比较ID3: 每次选取当前最优的特征来分割数据,并按照该特征所有可能取值来切分;一旦按某特征切分后,该特征在之后的算法执行过程中不会再起作用.缺点: 不能处理连续型特征,除非事先将连续型特征转换成离散型,但转换过程破坏了连续型变量的内在性质.CART; 二元切分法,每次把数据切成两份;若特征值大于给定值,就走左子树,反之,右子树.2. 树原创 2016-04-18 10:34:16 · 436 阅读 · 0 评论 -
机器学习实战之回归
1.线性回归1.1 优缺点结果易于理解,计算不复杂对非线性数据拟合效果不好,线性回归将数据视为线性的,可能会出现欠拟合现象,导致不能取得最好的预测效果.1.2 回归的一般流程 (1) 收集数据 (2) 准备数据:回归需要数值型数据,标称型数据应该转换为二值型数据 (3) 分析数据: 给出数据的可视化二维图有助于对数据作出理解和分析,在采用缩原创 2016-04-18 09:04:01 · 648 阅读 · 0 评论 -
机器学习实战之支持向量机
1. 基本定义(1)分隔超平面: 分类的决策边界,分布在超平面一侧的所有数据都属于某个类别, 分布在另一测的所有数据则属于另一个类别.(2) 间隔: 样本点到分割面的距离; 在训练过程中, 希望间隔尽可能大, 因为如果我们犯错或者在有限数据上训练分类器的话,希望分类器尽可能健壮.(3) 支持向量: 离分割超平面最近的那些点.2. svm(1) 支持向量机是一个二类分类器;类原创 2016-04-10 20:42:38 · 1379 阅读 · 0 评论 -
机器学习实战之logistic回归
1.logistic回归定义 (1)主要思想:根据现有数据对分类边界线建立回归公式,并以此进行分类.回归源于最佳拟合,即找到最佳的拟合参数,寻找过程采用最优化算法. (2)一般过程;准备数据:由于要进行距离计算,因此要求数据类型是数值型;结构化数据格式最佳训练算法:大部分时间用于训练,训练的目的是为了找到最佳的分类回归系数测试算法:一旦训练完成,测试会很容易使用算法原创 2016-04-02 20:54:06 · 655 阅读 · 0 评论 -
机器学习实战之决策树
1.决策树与k近邻算法对比k近邻算法最大的缺点就是无法给出数据的内在含义,决策树的主要优势就在于数据形式非常容易理解.2.决策树的优缺点优点 计算复杂度不高,输出结果易理解,对中间值的缺失不敏感,可以处理不相关特征数据.缺点 可能产生过度匹配问题,为了减少过度匹配,可以裁剪决策树,去掉一些不必要的叶子节点.若叶原创 2016-03-29 21:25:02 · 699 阅读 · 0 评论 -
机器学习实战之朴素贝叶斯
1.贝叶斯决策理论 贝叶斯决策理论的核心思想是选择具有最高概率的决策. 如果p(1|x,y)>p(2|x,y),那么类别是1; 如果p(1|x,y) 贝叶斯概率引入先验知识和逻辑推理来处理不确定命题; 另一种概率解释是频数概率,只从数据本身获得结论,并不考虑逻辑推理以及先验知识.2.朴素贝叶斯一般过程:(1)准备数据原创 2016-03-30 13:12:44 · 630 阅读 · 0 评论 -
机器学习实战之k-近邻算法
1 k-近邻算法原理存在一个训练样本集,并且每个样本集中每个数据都存在标签,也就是我们知道样本集中每个数据与所属分类的对应关系;当输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般地,只选择样本数据集中与新数据最相似的k个数据,通常k为不大于20的整数选择这k个最相似数据中出现次数最多的分类,作为新数据的原创 2016-03-26 11:58:11 · 556 阅读 · 0 评论 -
机器学习实战之Apriori
1. 关联分析1.1 定义 关联分析是一种在大规模数据上寻找物品间隐含关系的一种任务.这种关系有2种形式:频繁项集和关联规则. (1) 频繁项集(frequent item sets): 经常出现在一起的物品的集合; (2) 关联规则(association rules): 暗示两种物品之间可能存在很强的关系.1.2 量化关联分析是否成功原创 2016-04-21 11:11:24 · 3195 阅读 · 0 评论