![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
shinning0
学习学习学习
展开
-
机器学习——综合篇(降维,……)
其他方法 一、降维 1.主成分分析法(PCA) 主要思想是将n维特征映射到k维上,这k维特征是在原有n维特征的基础上重新构造出来的k维特征,被称为主成分。 PCA降维的过程就是从原始的空间中找一组相互正交的坐标轴,坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2...原创 2020-01-31 23:21:31 · 193 阅读 · 0 评论 -
机器学习——FP-growth算法
FP-growth算法 1.原理 相较于Apriori算法,FP-growth算法在发现频繁项集上有更快的速度。 FP-growth算法将数据存储在FP树的紧凑数据结构中。与搜索树不同的是,一个元素可以在FP树中出现多次。FP树会储存项集的出现频率,每个项集以路径的方式储存在树中,并通过link连接相似元素。 构建FP树需要对原始数据集扫描两遍。第一次遍历数据集会获得每个元素项的出...原创 2020-01-30 00:24:46 · 393 阅读 · 0 评论 -
机器学习——Apriori算法与关联分析
Apriori算法与关联分析 参考博客:[].() 1.原理 关联分析:在大数据的集合里寻找一些关系。关系有两种形式:频繁项(经常出现在一起的物品的集合)和关联规则(两种物品可能存在的强关系)。判断关系的两个标准是支持度和可信度。支持度定义为数据集中包含该项的记录所占的比例。可信度是关于关联规则的标准,如可信度=支持度A,B支持度A=\frac{支持度{A,B}}{支...原创 2020-01-23 23:38:48 · 224 阅读 · 0 评论 -
机器学习——K-均值聚类
K-均值聚类算法 参考blog:[].() 1.原理介绍 K-均值算法是一种聚类算法。聚类算法与分类算法的区别在于分类的目标事先已知,而聚类的类别没有事先定义。聚类算法将相似对象归为同一群落,将不同对象归到不同群落。相似的概念取决于选择的相似度的计算方法。 K-均值算法的原理是随机确定kkk个初始点作为质心(centroid,群中所有点的中心),为每个点找距离最近的质心,将每...原创 2020-01-22 01:21:41 · 206 阅读 · 0 评论 -
机器学习——分类回归树(CART)
分类回归树CART(Classification And Regression Trees)是一种既可以用于分类又可以用于回归的机器学习算法 CART使用二元切分法,每次将数据集切分两份,满足切分要求则进入左子树,否则进入右子树 可以用来处理连续性变量 伪代码: 找到最佳的待切分特征: 如果该节点不能再分,将该节点存为叶节点 进行二元切分 在右...原创 2020-01-20 21:47:52 · 572 阅读 · 0 评论 -
机器学习——回归(regression)
普通最小二乘法、局部加权线性回归、岭回归、lasso与向前逐步回归原创 2020-01-17 21:31:11 · 228 阅读 · 0 评论 -
机器学习——AdaBoost
AdaBoost 一、简介 集成学习大致分为两类: 1.个体学习器之间存在强依赖关系、必须串行生成的序列化方法,如:Boosting 2.个体学习器之间不存在强依赖关系、可以同时生成的并行化方法,如:Bagging和“随机森林” Boosting方法:将多个弱分类器提升为强分类器的方法(弱分类器类型一致) →训练基学习器→调整样本分布→训练下一个基学习...原创 2019-12-19 15:36:11 · 147 阅读 · 0 评论 -
机器学习——支持向量机(1/2)(理论)
支持向量机(SMO算法) 1.线性可分支持向量机 给定一个线性可分的训练数据集,通过间隔最大化得到一个分离超平面: wT⋅x+b=0 \pmb{w^T ·x }+ b = 0wT⋅xwT⋅xwT⋅x+b=0 在超平面wT⋅x+b=0\pmb{w^T ·x } + b = 0wT⋅xwT⋅xwT⋅x+b=0确定的情况下,| wT⋅x+b\pmb{w^T ·x } + bwT⋅xwT⋅x...原创 2019-12-07 22:27:31 · 221 阅读 · 0 评论 -
机器学习——logistic回归(对数几率回归)
logistic回归 处理两分类问题 涉及模块:numpy,random 1.理论 logistic回归是将线性回归模型的预测值转变为分类的一个模型。 回归模型: 用sigmoid函数将z值转为分类标记: 令正例的概率为: 则: 因此,需要估计参数w和b,通过极大似然法进行估计: 取对数: 求最优解(梯度下降法): &nbs...原创 2019-11-21 19:08:57 · 491 阅读 · 0 评论 -
机器学习——朴素贝叶斯(文本选择)
朴素贝叶斯(文本选择) 需要用到的模块:numpy,random 1.思路 朴素贝叶斯原理 解析文本(将文本分割成单词块) 根据文本,得到一个不重复的词汇列表(列出文本中所有词条) 选择词袋模型(考虑词汇出现频率)或词集模型(只考虑词汇是否出现) 计算类别i出现的概率P(c_i) 计算在每个类别下每个词汇出现的概率P(w|c_i) 根据给定特征计算概率,比较,进...原创 2019-11-19 18:53:50 · 170 阅读 · 0 评论 -
机器学习——决策树及绘图(tree&ID3)
决策树 参考文章: https://www.cnblogs.com/fantasy01/p/4595902.html. https://blog.csdn.net/weixin_42562500/article/details/89186437 https://www.runoob.com/w3cnote/matplotlib-tutorial.html原创 2019-11-15 12:29:43 · 654 阅读 · 0 评论 -
机器学习——k- 近邻算法(kNN)
k- 近邻算法 需要用到的模块:numpy,operator 1、定义函数 函数1:从文件中提取数据,形成numpy数组 函数2:归一化数据 函数3:分类器 函数4:检验分类器错误率 2、分类器步骤 定义距离(一般距离) 按照距离排序 选取距离最小的k个点 返回频率最高的类别作为预测分类 3、代码 from numpy import * import ope...原创 2019-11-10 21:13:19 · 148 阅读 · 0 评论