![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
人工智能系列 机器学习1-机器学习的基本概念
广小辉
这个作者很懒,什么都没留下…
展开
-
机器学习 Doc2Vec原理及实战
1. 两种训练方法PV-DM(Distributed Memory Model of Paragraph Vectors)。训练方法如下图所示,构建一个Paragraph向量集合,另外在构建一个词向量集合,wv(word vector)在语料库中是共享的,而pv(paragraph vector)是唯一的,与每个paragraph一一对应。Pv和wv可以有不同的维度,用一个划窗在文本上滑动,用...原创 2020-02-29 20:45:10 · 939 阅读 · 0 评论 -
机器学习 -LDA模型
1. 模型相关参数1. n_components: 主题的数量。越大,topic越多,perplexity越小,也越容易过拟合。可以画出n_components vs perplexity的变化曲线来确定;2. doc_topic_prior,文本-主题的先验分布theta,默认为$\frac{1}{n\_components}$3. topic_word_prior: 主题-单词先验分布b...原创 2020-02-29 16:56:35 · 626 阅读 · 0 评论 -
机器学习 --文本特征提取TF-IDF
1. CountVectorizermax_df=1.0, min_df=1Max_df表示超过这个阈值的的文档频率的文档会被去除掉【相当于去除语料给定的停止词】Min-df:文档频率小于给定值的文档会被删除掉,学术用语为cut-off【截断】有用的属性:vocabulary_, 获取转化的词频词典,是一个有序字典:停止词:单词出现次数太多或者太少的都会被看做停止词。...原创 2020-02-29 16:52:24 · 671 阅读 · 0 评论 -
机器学习 --激活函数sigmoid. tanh. relu对比
1. 三种函数的表达式sigmoid函数【S函数】:表达式g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}g(z)=1+e−z1导数:g′(z)=g(z)(1−g(z))g^{'}(z)=g(z)(1-g(z))g′(z)=g(z)(1−g(z))tanh函数【双S函数】:表达式:f(z)=ez−e−zez+e−zf(z)=\frac{e^z - e^{-...原创 2020-02-22 23:57:41 · 668 阅读 · 0 评论 -
机器学习 -- DeepWalk
1.0 DeepWalk的提出Word2Vec是基于序列进行Embedding;但是随着实体之间的关系越来越复杂,网络化,此时序列Embedding需要升级为Graph Ebedding;1.1 基本概念:节点的度:在图论中,和该节点相关联的边的条数,特别地,对于有向图,进入该节点边的条数称为节点的入度;从该节点发出边的条数称为出度;1.2 DeepWalk的步骤构建每一个节点...原创 2020-01-30 13:05:26 · 475 阅读 · 0 评论 -
机器学习 --ID3/C4.5 以及决策树参数
一. ID3/C4.51. ID3算法是决策树一个经典的构造算法,内部使用信息熵和信息增益来进行构建,每次迭代选择信息增益最大的特征属性作为分隔属性;ID3只支持离散的特征,不支持连续的特征; ID3算法构建的是多叉树; 依赖特征属性较多特征,但实际上并不是最优的【产生误导】,因此必须用特征的信息熵进行惩罚/归一化; 不会进行剪枝操作!2. C4.5,使用信息增益率代替信息增...原创 2020-01-29 18:02:11 · 1114 阅读 · 0 评论 -
机器学习 --集成学习算法调参
1、RF调参方法参考:http://wakemeup.space/?p=187http://blog.csdn.net/y0367/article/details/51501780http://blog.csdn.net/sun_shengyun/article/details/546181212、AdaBoost调参方法:http://www.cnblogs.com/pinard/p/...转载 2020-01-20 17:21:41 · 343 阅读 · 1 评论 -
机器学习 特征工程【汇总1】
目录需要哪些数据数据如何存储数据如何清洗数据特征工程1. 需要哪些数据在进行机器学习之前,存在一个收集数据的过程,我们主要按照以下规则找出我们所需要的数据:业务的实现需要哪些规则?基于对业务规则的理解,尽可能找出对因变量有影响的所有自变量的数据数据埋点的流程:提需求—>前端植入埋点代码块—>灰度测试—>测试验收—>发版上线数据的可用性评估...原创 2020-01-17 22:48:10 · 369 阅读 · 0 评论 -
机器学习 Word2vec---2 python实现过程
获取语料库# define the corpus# 处理方法1import retext = 'natural language processing and machine learning \is fun and exciting'corpus = re.split('[\n]|\s+', text)# 处理方法2from gensim.utils import simple...原创 2020-01-06 20:52:04 · 576 阅读 · 0 评论 -
机器学习 Word2Vec ---1基本简介
Word Embeding [词嵌入] 简介VSM空间向量模型(VSMs)将词向量映射于一个连续的向量空间中,语义上近似的单词对应的词向量 映射到向量空间中也是相邻的数据点。向量空间模型在自然语言处理领域中有着丰富且漫长的历史,不过几乎所有利用这一模型的方法都依赖于分布式假设,其核心思想为:出现于上下文情境中的词汇都有类似的语义。采用这一假设的研究方法大致上分为以下几类:基于统计计数的方法...原创 2020-01-06 20:38:39 · 408 阅读 · 0 评论 -
机器学习 特征工程-特征选择
特征选择(FeatureSelection)\color{DodgerBlue}{特征选择(Feature Selection)}特征选择(FeatureSelection) 在机器学习流程中,前期获取“足量”的训练数据是至关重要的一个步骤。“足量”包括两个方面:一个是特征层面,另一个是训练数据量。但是并不是所有的特征都会用于模型训练,主要是因为不必要的特征不仅会降低训练速度、降低模型的可解释性...原创 2019-12-30 17:16:11 · 828 阅读 · 1 评论 -
scikit-leann 新版本【0.22】
目前,在pycharm中可以直接安装0.22版本的scikit-learn了:在python 或者 anacoda中,也可以直接升级:# pythonpip install --upgrade scikit-learn# condaconda install scikit-learn目录:stacking 模型融合特征处理中利用KNN近邻填充–KNNImputer便捷的ro...原创 2019-12-23 18:10:47 · 1197 阅读 · 0 评论 -
机器学习 7 XGBoost
1. 集成算法总结1.1 Bagging随机森林:多个基模型的构建是基于不同数据来构建的,各个模型是独立,不提提高准确度,但是可以降低过拟合;1.2 Boosting通过迭代的形式,基于之前构建好的模型,对样本数据做一定的修正【或者改变权重/标签值】然后影响之后模型的构建。不断迭代构建的目的是:让预测更加准确,提升准确度,降低偏差;Adaboost通过修正样本的权重GBD...原创 2019-12-19 21:14:09 · 326 阅读 · 0 评论 -
机器学习 6 GBDT(梯度提升决策树)
基本概念GBDT也是Boosting算法的一种,但是和Adaboost算法不同;如别如下:Adaboost算法是利用前一轮的弱学习器的预测误差率来更新样本权重,然后一轮一轮的迭代;GBDT也是迭代,但是GBDT要求的弱学习器必须是CART模型,而且GBDT在模型训练的时候,模型预测的样本损失尽可能小;GBDT底层只支持决策树,并且是回归决策树;别名:GBT(Gradient Bo...原创 2019-12-17 13:52:48 · 333 阅读 · 0 评论 -
机器学习 5 AdaBoost
目录Boosting 的基本思想AdaboostGradient Boosting(GBT/GBDT/GBT)1. Boosting 思想提升学习(Boosting)是一种机器学习技术,可以用于回归和分类的问题,它每一步产生弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型的生成都是依据损失函数,那么就称为梯度提升(Gradient boosting);提升技术...原创 2019-12-13 22:04:20 · 155 阅读 · 0 评论 -
机器学习 4 随机森林
目录随机森林提升算法GBDT(迭代决策树)Adaboost1. Bagging思想1.1 Bagging API参数参数值解释base_estimator基学习器可以采用其他算法,相对较为灵活n_estimators学习器的个数子模型的数目max_samples给定子模型训练时,用多少个样本训练,这个是总样本百分比max_fea...原创 2019-12-11 21:54:09 · 344 阅读 · 0 评论 -
机器学习 3决策树
目录:信息熵决策树决策树的优化剪枝决策树的可视化1. 信息熵1.1 决策树的直观理解用于判断借款风险的决策树当构建好一个模型之后,新来一个用户的时候,可以根据构建好的模型直接进行判断。可以发现有两个问题:选择那些特征来做分割?对于选定的特征,应该选择什么分割点?1.2 信息熵定义假设现在随机变量X具有m个值,分别是:V1, V2, V3…,Vm,并...原创 2019-11-30 23:01:59 · 236 阅读 · 0 评论 -
机器学习 2KNN 算法
目录KNN算法KD-Tree1. KNN算法原理1.1 基本原理KNN(K-nearest-neighbors)是一种基本的机器学习算法,所谓K近邻,就是K个最近的邻居的意思,说的是每个样本都可以用与它最近的K个邻居来表示。比如,判断一个人的人品,只需要观察与之最密切的几个人的品行即可;KNN算法即可以用到分类应用中,也可以用到回归应用中;KNN在做回归和分类的主要区别在于最后...原创 2019-11-28 23:19:17 · 366 阅读 · 0 评论 -
机器学习军规(machine learning rules)
机器学习军规机器学习在实际工作中,更多的是工程问题,并非算法问题。因此首要要从工程效率中要效果,达到上线之后,再考虑算法的升级;不要害怕上线一个没有机器学习应用的产品;首先要设计和实现算法的评估指标,这些指标包括:算法本身的评价指标,比如score,acc,auc等;模型推荐结果的评价,对于TopN问题,有recall, precision ;对于评分预测问题,有MSE, RMSE;...原创 2019-11-19 22:45:24 · 206 阅读 · 0 评论 -
机器学习 1回归算法
目录线性回归Logistic回归Softmax回归梯度下降特征抽取线性回归案例1. 回归算法综述回归算法是一种有监督的算法【有label】回归算法是一种比较常用的机器学习算法,用来建立“解释变量”(自变量x)和观测值(因变量Y)之间的关系;从机器学习的角度讲,用于构建一个算法模型,来做属性和标签之间的隐射关系,那么在算法训练过程中,寻找一个函数h:RdR^dRd->R...原创 2019-11-09 14:59:16 · 523 阅读 · 0 评论 -
机器学习 1机器学习概述
目录最大似然估计法SVD、QR矩阵分解梯度下降法求解参数1. 梯度下降法梯度下降法公式:xk+1x_{k+1}xk+1 = xkx_kxk - α\alphaα * (ΔxkΔyk)\left(\frac{{\Delta}x_k}{{\Delta}y_k}\right)(ΔykΔxk)就是为了求函数的最小值点,我们先求取xmin,然后带入到函数中,求取整个函数的最小值...原创 2019-10-18 14:07:09 · 449 阅读 · 0 评论