![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习算法
主要是机器学习的算法推导,其中大部分算法已经手动编写代码
macan_dct
一直在思考怎样才能有意义地过这一生,却发现时间从来没让我这么去做
展开
-
数据挖掘——近似最近邻算法ANN之LSH
数据挖掘——近似最近邻算法ANN之LSH简介LSH算法LSH之相似网页查找——Simhash简介局部敏感哈希(Locality Sensitive Hashing,LSH)主要是为了处理高维度数据的查询和匹配等操作。关于这个算法,综合多个前辈的总结,总算是能搞懂的,现将我使用到的算法说明总结如下:【文本相似性计算】minHash和LSH算法大规模数据的相似度计算:LSH算法在此基础上,...转载 2019-11-27 19:22:11 · 1358 阅读 · 0 评论 -
数据挖掘——社区发现算法之LPA算法
机器学习——社区发现算法之LPA算法https://greatpowerlaw.wordpress.com/2013/02/08/community-detection-lpa/转载 2019-11-25 19:04:41 · 1650 阅读 · 0 评论 -
机器学习——社区发现算法
机器学习——聚类算法Partitioning Method 划分聚类=>K-MeansHierachical Methods 层次聚类=>Bottom-Up、Top-Down、BIRCH、CURE、CHAMELEONDensity-based Method 基于密度算法=> DBSCANGrid-based Method 基于网格算法=>CL...原创 2020-01-15 14:42:39 · 2115 阅读 · 0 评论 -
数据挖掘——关联规则算法之FP-tree
数据挖掘——关联规则算法之FP-tree前言FP-tree算法FP-tree的优缺点前言Apriori算法需要生成大量的候选集而且需要进行多次的扫描,对于那些大数据量的数据集很耗费时间。基于此问题,FP-tree算法不用生成候选集,只进行两次数据库扫描。简单来说是尽可能少得读取数据,尽可能的对读取到的数据进行压缩,属于空间换时间的算法。FP-tree算法FP-tree没有候选集,直接压缩数...原创 2019-11-24 20:32:15 · 4537 阅读 · 4 评论 -
数据挖掘——关联规则算法之Apriori
数据挖掘——关联规则一、关联规则的基本概念二、强关联规则三、关联规则挖掘算法一、关联规则的基本概念设I=i1,i2,...,imI={i_{1},i_{2},...,i_{m}}I=i1,i2,...,im为所有项目的集合,D为事务数据库,事务T是一个项目子集(T⊑IT\sqsubseteq IT⊑I)。每一个事务具有唯一的事务标识TID。设A是一个由项目构成的集合,称为项集。事务T包含...原创 2019-11-22 21:07:25 · 1224 阅读 · 0 评论 -
数据挖掘——特征选择
数据挖掘——特征选择前言特征选择1、sklearn.feature_selection.GenericUnivariateSelect——具有可配置策略的单变量特征选择器前言特征选择是数据挖掘人物中相当重要的一步,选择地好既能去除冗余特征减少不必要的计算,又能增加数据的表达性,增加算法的准确率。特征选择的方法很多,需要一个萝卜一个坑,所以需要找到最适合当前任务的特征选择方法。这篇介绍sklea...原创 2019-11-12 21:36:13 · 799 阅读 · 0 评论 -
逻辑回归解决多分类问题
逻辑回归解决多分类问题第一种方式:从类别入手1、OVO(one vs one)2、OVR(One Vs Rest)第二种方法:从算法入手传统的逻辑回归只能处理二分类问题,对于多分类任务,主要有如下两种方案。第一种方式:从类别入手1、OVO(one vs one)某个分类算法有N类,将某一类和另一类比较作为二分类问题,总共可分为cn2c_{n}^{2}cn2种不同的二分类模型,给定一个新的...原创 2020-01-15 14:26:46 · 3798 阅读 · 0 评论 -
Bagging、Boosting的区别
Bagging、Boosting的区别样本选择:Bagging算法是有放回的随机采样;Boosting算法是每一轮训练集不变,只是训练集中的每个样例在分类器中的权重发生变化,而权重根据上一轮的分类结果进行调整;样例权重:Bagging使用随机抽样,样例的权重;Boosting根据错误率不断地调整样例的权重值,错误率越大则权重越大;预测函数:Bagging所有预测模型的权重相等;Boosti...原创 2020-01-04 22:33:59 · 332 阅读 · 0 评论 -
机器学习——提升方法Adaboost算法
机器学习——提升方法Adaboost算法前言提升方法的基本思路Adaboost算法Adaboost例子前言注:该文大部分来自于李航的《统计学习》,此篇可理解为个人笔记。提升方法的基本思路简单来说就是“三各臭皮匠顶一个诸葛亮”的道理。对于分类任务而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比精确非分类规则(强分类器)容易的多。提升方法就是从弱学习算法出发,反复学习,得到一些...原创 2020-01-04 21:47:11 · 246 阅读 · 0 评论 -
机器学习——分类算法之决策树
机器学习——分类算法之决策树前言属性划分1、信息熵(ID3算法)前言主要涉及ID3算法、C4.5算法、CART算法、决策树的剪枝、连续值和缺失值的处理。决策树是基于树结构来进行决策的,一般的一颗决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果,其他每个结点则对应于一个属性测试,每个结点包含的样本集合根据属性测试的结果被划分到子结点中,根结点包含样本全集。决策树的工作...原创 2019-09-30 10:20:07 · 449 阅读 · 0 评论 -
机器学习——损失函数
机器学习——损失函数前言一、分类问题的损失函数1、0-1损失(one-zero loss)2、Log Loss3、Focal Loss4、相对熵、KL散度(Relative Entropy/Kullback-Leibler Divergence)5、指数损失(Exponential Loss)6、Hinge Loss二、回归问题的损失函数1、均值平方差(Mean Squared Error,MSE...原创 2019-09-22 20:16:53 · 1759 阅读 · 0 评论 -
机器学习——回归算法之线性回归
机器学习——回归算法之线性回归前言线性回归算法推导过程梯度下降1、批量梯度下降(GD)2、随机梯度下降(SGD)3、小批量梯度下降法(MBGD)代码实现前言机器学习算法按照“用途”可分为回归、分类、聚类、降维、模型选择和预处理,前面的几篇已经介绍完降维和预处理,从这篇开始更新回归、分类、聚类等算法。关于回归和分类的区别,请自行百度,这一篇介绍回归模型。线性回归一个数据集有m个样本:X={X...原创 2019-09-08 20:35:52 · 242 阅读 · 1 评论 -
机器学习——回归算法之岭回归、Lasso、ElasticNet
机器学习——回归算法之岭回归、Lasso、ElasticNet前言回顾正则化岭回归(Ridge Regression)LASSO RegressionElasticNet四种回归算法对比前言前面一篇介绍了线性回归模型的算法推导,岭回归、Lasso、ElasticNet都是在线性模型的基础上添加约束项(正则化),具体推导如下。回顾线性模型优化的目标函数:(1)J(θ)=12∑k=1m(yk...原创 2019-09-09 21:13:16 · 672 阅读 · 0 评论 -
机器学习——回归算法之最小角回归(Least angle regression, LARS)
机器学习——回归算法之最小角回归(Least angle regression, LARS)前言算法思想示例代码前言最小角回归涉及到了相关系数(current correlations),但这里并不会具体定义相关系数的定义,只需要在知道它是用来衡量两个变量相关程度的就可以了。算法思想这里用一张图来说明算法的基本思想:从简单的情况说明,假设有两个样本x1和x2,真实标签为y2^(图中绿色的...原创 2019-09-10 21:53:16 · 2676 阅读 · 0 评论 -
机器学习——回归算法之正交匹配追踪算法
机器学习——回归算法之正交匹配追踪算法(Orthogonal Matching Pursuit,OMP)前言匹配追踪算法(Matching Pursuit,MP)1、算法思想2、算法过程3、MP算法的问题正交匹配追踪算法(Orthogonal Matching Pursuit,OMP)1、算法思想2、算法流程3、代码前言学习正交匹配追踪算法之前需要看懂匹配追踪算法(MP),显然OMP是在MP的...原创 2019-09-15 20:07:47 · 6074 阅读 · 0 评论 -
机器学习——贝叶斯算法和朴素贝叶斯算法
机器学习——贝叶斯算法和朴素贝叶斯算法前言贝叶斯算法1、贝叶斯决策论算法示例前言先理解下贝叶斯算法要解决的问题:正向概率: 假设袋子里面有N个白球,M个黑球,伸手进去摸一把,摸出黑球的概率有多大?很简单:M/(N+M)逆向概率: 如果事先并不知道袋子里黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么就可以对此袋子里面的黑白球的比例作出什么样的推测...原创 2019-09-17 20:29:27 · 2367 阅读 · 0 评论 -
机器学习——分类算法之逻辑回归
机器学习——分类算法之逻辑回归前言逻辑回归(Logistic Regression)1、Sigmoid函数2、算法推导3、代码前言逻辑回归也被称为对数几率回归,注意这里面说的回归并不是真正意义上的回归算法,其实它是一个经典的分类算法,至于为什么会有“回归”命名,后面会讲到。逻辑回归(Logistic Regression)1、Sigmoid函数说逻辑回归算法之前必须整明白Sigmoid函...原创 2019-09-18 20:46:15 · 822 阅读 · 2 评论 -
机器学习——分类算法之感知机
机器学习——分类算法之感知机前言符号函数感知机模型感知机算法1、原始形式2、对偶形式代码前言感知机算法(perceptron)是用于二分类的线性分类模型,将输入实例划分为正例和负例的一个超平面,属于判别模型。感知机算法旨在求出将训练数据进行线性划分的分类超平面,基于误分类的损失函数,利用梯度下降法对损失函数进行极小化。符号函数符号函数应该都知道,这里简单过一下。表达式:f(x)={+1...原创 2019-09-20 22:05:14 · 908 阅读 · 0 评论