机器学习
文章平均质量分 89
L先生AI课堂
李虎,联想集团PCSD业务UDS平台推荐算法团队开发负责人,曾获2018-2019年度联想集团中国区优秀员工。在联想内部,做过多次企业内训和技术支持,并在北京线下技术沙龙分享会上作为演讲嘉宾分享算法实战应用效果,拥有丰富的线上,线下培训经验。对机器学习,深度学习算法建模,推荐系统,大数据有多年的实际经验。CSDN博客专家,著有大白话算法系列,以通俗生动的方式讲解人工智能前沿算法。愿景是打造全网AI最通俗教学,赠人玫瑰,手有余香,在人工智能前行的路上一起前行,以通俗简洁详细的方式,让每一位热爱着深入其中。空间有形、梦想无限!加油!
展开
-
浅谈Graph Embedding(一)
本文主要介绍Graph Embedding算法背景引入和Graph Embedding 介绍以及Graph Embedding算法之Deep Walk原创 2023-02-03 16:05:34 · 804 阅读 · 0 评论 -
一文读懂深度学习中文本处理的4种方式
文本处理方式是深度学习领域中自然语言处理的基础,即把文本转变成计算机识别的语言过程。转变之后才能用算法做后续的文本分析和理解。所以有必要了解文本处理的几种方式,做到对不同的场景采用不同的处理方式。常见的文本处理方式有独热编码(one-hot),词袋法(Bag of words),TF-IDF和词向量(Word2Vec)这4种,我们分别为大家解释。原创 2023-01-03 16:42:12 · 1854 阅读 · 4 评论 -
【机器学习】--贝叶斯网络
一、前述当多个特征属性之间存在着某种相关关系的时候,使用朴素贝叶斯算法就没法解决这类问题,那么贝叶斯网络就是解决这类应用场景的一个非常好的算法。一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,可以是可观察到 的变量,或隐变量,未知参数等等。连接两个节点之间的箭头代表两个随机变量之间的因果关系(也就是这两个随机变量之间非条件独立),如果两个节点间以一个单箭头连接在一起,表示其中一个节点是"...原创 2018-04-09 01:43:00 · 919 阅读 · 0 评论 -
【机器学习】--EM算法从初识到应用
一、前述Em算法是解决数学公式的一个算法,是一种无监督的学习。EM算法是一种解决存在隐含变量优化问题的有效方法。EM算法是期望极大(Expectation Maximization)算法的简称,EM算法是一种迭代型的算法,在每一次的迭代过程中,主要分为两步:即求期望(Expectation)步骤和最大化(Maximization)步骤。二、具体1、高斯混合模型 所谓混...原创 2018-04-09 11:33:00 · 806 阅读 · 0 评论 -
【机器学习】--隐含马尔科夫模型从初识到应用
一、前述 马尔可夫(1856~1922),苏联数学家。切比雪夫的学生。在概率论、数论、函数逼近论和微分方程等方面卓有成就。 马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。二、具体1、案例问题一:...原创 2018-04-09 12:30:00 · 1029 阅读 · 0 评论 -
【机器学习】--主成分分析PCA降维从初识到应用
一、前述主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。二、概念协方...原创 2018-04-10 01:02:00 · 498 阅读 · 0 评论 -
【机器学习】--FP-groupth算法从初始到应用
一、前述二、构建FP_groupth数流程1、扫描事务数据库D 一次。收集频繁项的集合F 和它们的支持度。对F 按支持度降序排序,结果为频繁项表L。2、创建FP 树的根节点,以“null”标记它。对亍D 中的每个事务Trans,执行:选择 Trans中的频繁项,并按L 中的次序排序。设排序后的频繁项表为[p | P],其中,p 是第一个元素,而P 是剩余元素的表。调用insert_t...原创 2018-04-10 18:02:00 · 879 阅读 · 0 评论 -
【机器学习篇】--SVD从初始到应用
SVD一般应用场景--推荐系统,图像压缩。1、直观感受。SVD其实就是将矩阵分界,直观感受如图。就是将A矩阵分界成U,S,V三个矩阵相乘。一般推荐系统中用的多。S是对角阵,里面的特征值是从大到小排列的。2、前述知识。一个矩阵乘以一个向量结果还是一个向量,并且等于原始向量的倍,相当于对原始向量进行一个某个方向上的拉伸。3、矩阵压缩...原创 2018-06-12 00:15:00 · 404 阅读 · 0 评论 -
【机器学习】--Adaboost从初始到应用
一、前述AdaBoost算法和GBDT(Gradient Boost Decision Tree,梯度提升决策树)算法是基于Boosting思想的机器学习算法。在Boosting思想中是通过对样本进行不同的赋值,对错误学习的样本的权重设置的较大,这样,在后续的学习中集中处理难学的样本,最终得到一系列的预测结果,每个预测结果有一个权重,较大的权重表示该预测效果较好。二、具体原理AdaBo...原创 2018-04-08 14:57:00 · 572 阅读 · 0 评论 -
【机器学习】--关联规则算法从初识到应用
一、前述 关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basket analysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。二、相关概念交易集:包含所有数据的一个数据集合,数据集合中的每条数据都是一笔交易关联分析:在大规模数据集中寻找有趣关系的任务。...原创 2018-04-07 18:41:00 · 499 阅读 · 0 评论 -
【机器学习】--机器学习之朴素贝叶斯从初始到应用
一、前述机器学习算法中,有种依据概率原则进行分类的朴素贝叶斯算法,正如气象学家预测天气一样,朴素贝叶斯算法就是应用先前事件的有关数据来估计未来事件发生的概率。二、具体1、背景--贝叶斯定理引入对于两个关联事件(非独立事件)A和B,同时发生的概率为:P(AB)=P(A|B)P(B)=P(B|A)P(A),所以把公式变形后可得:贝叶斯定理,他是朴素贝叶斯算法的基础,就是下面的这个...原创 2018-04-07 15:28:00 · 484 阅读 · 0 评论 -
【机器学习】--Python机器学习库之Numpy
一、前述NumPy(Numerical Python的缩写)是一个开源的Python科学计算库。使用NumPy,就可以很自然地使用数组和矩阵。 NumPy包含很多实用的数学函数,涵盖线性代数运算、傅里叶变换和随机数生成等功能。这个库的前身是1995年就开始开发的一个用于数组运算的库。经过了长时间的发展,基本上成了绝大部分Python科学计算的基础包,当然也包括所有提供Python接口的深度...原创 2018-04-06 20:39:00 · 526 阅读 · 0 评论 -
【机器学习】--谱聚类从初始到应用
一、前述 谱聚类(spectral clustering)是一种基于图论的聚类方法,主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远(或者相似度较低)的两个点之间的边权重值较低,而距离较近(或者相似度较高)的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。二...原创 2018-04-06 19:27:00 · 1163 阅读 · 0 评论 -
【机器学习】--层次聚类从初识到应用
一、前述聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小.数据聚类算法可以分为结构性或者分散性,许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。1.分散式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。2.结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有...原创 2018-04-06 17:36:00 · 2026 阅读 · 0 评论 -
【机器学习】--LDA初始和应用
一、前述LDA是一种 非监督机器学习 技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所...原创 2018-04-04 10:38:00 · 1231 阅读 · 0 评论 -
【机器学习】--鲁棒性调优之L1正则,L2正则
一、前述鲁棒性调优就是让模型有更好的泛化能力和推广力。二、具体原理1、背景第一个更好,因为当把测试集带入到这个模型里去。如果测试集本来是100,带入的时候变成101,则第二个模型结果偏差很大,而第一个模型偏差不是很大。2、目的鲁棒性就是为了让w参数也就是模型变小,但不是很小。所以引出了L1和L2正则。L1和L2的使用就是让w参数减小的使用就是让w参数减小。L...原创 2018-03-31 20:24:00 · 1422 阅读 · 0 评论 -
【机器学习】--回归问题的数值优化
一、前述回归问题求解时梯度下降由于样本数据的多样性,往往对模型有很大的影响,所以需要对样本数据做一些优化二、归一化1、背景各个维度的输入如果在数值上差异很大,那么会引起正确的w在各个维度上数值差异很大。这样找寻w的时候,对各个维度的调整基本上是按照同一个数量级来进行调整的。因此需要归一化。2、归一化方法• 归一化的一种方法:最大值最小值法• 缺点是抗干扰能力弱• 受离群...原创 2018-03-31 18:15:00 · 1267 阅读 · 0 评论 -
【机器学习】--隐语义模型
一、前述隐语义模型是近年来推荐系统领域较为热门的话题,它主要是根据隐含特征将用户与物品联系起来。因为用户和物品之间有着隐含的联系。所以把用户转成隐语义,然后物品转成隐语义组合,通过中介隐含因子连接。二、具体1、隐语义模型举例和求解N代表用户,M代表物体第一步:先分解 将用户分解成F个因子的矩阵 将物品也分解成F个因子的矩阵 (F*N)T*(F*M )=N*M 其中T表示转置...原创 2018-06-12 01:42:00 · 1241 阅读 · 1 评论 -
【机器学习】--xgboost从初识到应用
一、前述在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是什么以及如何应用。Gradient boosting 是 boosting 的其中一种方法,所谓 Boosting ,就是将弱分离器 f_i(x) 组合起来形成强分类器 F(x) 的一种方法。二、具体1、举例说明:在tree1...原创 2018-06-14 02:16:00 · 404 阅读 · 0 评论 -
【机器学习】--xgboost初始之代码实现分类
一、前述上节我们讲解了xgboost的基本知识,本节我们通过实例进一步讲解。二、具体1、安装默认可以通过pip安装,若是安装不上可以通过https://www.lfd.uci.edu/~gohlke/pythonlibs/网站下载相关安装包,将安装包拷贝到Anacoda3的安装目录的Scrripts目录下, 然后pip install 安装包安装。2、代码实例impo...原创 2018-06-18 17:31:00 · 927 阅读 · 3 评论 -
【机器学习】---逻辑回归从初识到应用
=========================================================声明:由于不同平台阅读格式不一致(尤其源码部分),所以获取更多阅读体验!!请关注本人博客园地址:http://www.cnblogs.com/LHWorldBlog/p/8319502.html个人网站地址:http://www.lhworldblog.com/?p=1原创 2018-01-27 00:05:12 · 468 阅读 · 0 评论 -
【机器学习】--线性回归中L1正则和L2正则
=========================================================声明:由于不同平台阅读格式不一致(尤其源码部分),所以获取更多阅读体验!!请关注本人博客园地址:http://www.cnblogs.com/LHWorldBlog/p/8336733.html个人网站地址:http://www.lhworldblog.com/2018原创 2018-01-27 00:06:58 · 663 阅读 · 0 评论 -
【机器学习】---密度聚类从初识到应用
=========================================================声明:由于不同平台阅读格式不一致(尤其源码部分),所以获取更多阅读体验!!请关注本人博客园地址:http://www.cnblogs.com/LHWorldBlog/p/8318207.html个人网站地址:http://www.lhworldblog.com/==原创 2018-01-27 00:16:34 · 554 阅读 · 0 评论 -
【机器学习】--Kmeans从初识到应用
一.前述Kmeans算法一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。Kmeans算法是一种无监督的算法。二.概念及原理Kmeans原理: 1 随机选取k个中心点 2 遍历所有数据,将每个数据划分到最近的中心点中 3 计算每个聚类的平均值,并作为新的中心点 4 重复2-3,直到这k个中线原创 2018-01-27 00:19:14 · 532 阅读 · 0 评论 -
【机器学习】--线性回归从初识到应用
=========================================================声明:由于不同平台阅读格式不一致(尤其源码部分),所以获取更多阅读体验!!请关注本人博客园地址:http://www.cnblogs.com/LHWorldBlog/个人网站地址:http://www.lhworldblog.com/================原创 2018-01-27 00:12:58 · 523 阅读 · 0 评论 -
【机器学习】--决策树和随机森林
一、前述决策树是一种非线性有监督分类模型,随机森林是一种非线性有监督分类模型。线性分类模型比如说逻辑回归,可能会存在不可分问题,但是非线性分类就不存在。二、具体原理ID3算法1、相关术语根节点:最顶层的分类条件叶节点:代表每一个类别号中间节点:中间分类条件分枝:代表每一个条件的输出二叉树:每一个节点上有两个分枝多叉树:每一个节点上至少有两个分枝2、决策树的生成:...原创 2018-06-22 01:21:43 · 518 阅读 · 0 评论 -
【机器学习】--集成算法从初始到应用
一、前述集成思想就是让很多个训练器决定一个结果,目的:让机器学习效果更好,单个不行,群殴走起。二、具体1、概述2、Bagging模型全称: bootstrap aggregation(说白了就是并行训练一堆分类器),最典型的代表就是随机森林啦。随机:数据采样随机,特征选择随机森林:很多个决策树并行放在一起构造树模型:由于二重随机性,使得每个树基本上...原创 2018-06-22 02:04:24 · 567 阅读 · 0 评论 -
理解交叉熵作为损失函数在神经网络中的作用
交叉熵的作用通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输出层有1000个节点:而即便是ResNet取消了全连接层,也会在最后有一个1000个节点的输出层:一般情况下,最后一个输出层的节点个数与分类任务的目标数相等。假设最后的节点数为N,那么对于每一个样例,神经网络可以得到一个N维的...转载 2018-08-29 11:15:36 · 513 阅读 · 0 评论 -
【机器学习】--模型评估指标之混淆矩阵,ROC曲线和AUC面积
一、前述怎么样对训练出来的模型进行评估是有一定指标的,本文就相关指标做一个总结。二、具体1、混淆矩阵混淆矩阵如图:第一个参数true,false是指预测的正确性。第二个参数true,postitives是指预测的结果。相关公式:检测正列的效果:检测负列的效果:公式解释:fp_rate:tp_rate:...原创 2018-03-27 11:17:00 · 2109 阅读 · 0 评论 -
【机器学习】--决策树和随机森林
一、前述决策树是一种非线性有监督分类模型,随机森林是一种非线性有监督分类模型。线性分类模型比如说逻辑回归,可能会存在不可分问题,但是非线性分类就不存在。二、具体原理ID3算法1、相关术语根节点:最顶层的分类条件叶节点:代表每一个类别号中间节点:中间分类条件分枝:代表每一个条件的输出二叉树:每一个节点上有两个分枝多叉树:每一个节点上至少有两个分枝2、决策树的生成:...原创 2018-03-27 15:12:00 · 494 阅读 · 0 评论 -
【Numpy应用】--对于图片处理的机器学习库的应用
一。思路二。代码:#coding:utf-8import numpy as npimport PIL.Image as Imageimport pickle as pimport osclass ImageTools(object): image_dir='images/' result_dir='results/' data_file_...原创 2018-06-26 10:16:00 · 406 阅读 · 0 评论 -
【机器学习】--时间序列算法从初识到应用
一、前述指数平滑法对时间序列上连续的值之间的相关性没有要求。但是,如果你想使用指数平滑法计算出预测区间, 那么预测误差必须是不相关的, 且必须是服从零均值、 方差不变的正态分布。即使指数平滑法对时间序列连续数值之间相关性没有要求,在某种情况下, 我们可以通过考虑数据之间的相关性来创建更好的预测模型。自回归移动平均模型( ARIMA)是最常用的时间序列预测模型。二、具体1、自回归模型(...原创 2018-06-26 00:08:00 · 1957 阅读 · 0 评论 -
【机器学习】--SVM从初始到应用
一、前述SVM在2012年前还是很牛逼的,但是12年之后神经网络更牛逼些,但我们还是很有必要了解SVM的。二、具体1、问题引入要解决的问题:基于以下问题对SVM进行推导3条线都可以将两边点分类,什么样的决策边界才是最好的呢? 特征数据本身如果就很难分,怎么办呢?计算复杂度怎么样?能实际应用吗?2、案例引入假设有一个部队过雷区,我们肯定希望走的边界越大越好,这样踩雷...原创 2018-06-18 19:59:00 · 528 阅读 · 0 评论 -
【机器学习】--线性回归中soft-max从初始到应用
=========================================================声明:由于不同平台阅读格式不一致(尤其源码部分),所以获取更多阅读体验!!请关注本人博客园地址:http://www.cnblogs.com/LHWorldBlog/个人网站地址:http://www.lhworldblog.com/?p=123&preview=tru原创 2018-01-27 00:02:48 · 533 阅读 · 2 评论