![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
黑洲非人lyf
小码农
展开
-
NLP--Doc2Bow简介与实践Demo(五)
NLP资料PDF链接参考文章:https://blog.csdn.net/qq_16633405/article/details/80578804总结文章参考:sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizerDoc2Bow是Gensim中封装的一个方法,主要用于实现Bow模型,下面主要介绍下Bow模型。1、BoW模型原理B...原创 2019-01-11 13:53:07 · 5103 阅读 · 1 评论 -
NLP--Bayes-NGram(三)
NLP资料PDF链接 1. 引言:朴素贝叶斯的局限性我们知道朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是这里要提到的N-gram语言模型CountVector ...原创 2018-12-28 08:30:31 · 2039 阅读 · 2 评论 -
NLP--jieba(二)
NLP资料PDF链接 jieba中文处理by 寒小阳(hanxiaoyang.ml@gmail.com)和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大...原创 2018-12-26 19:42:05 · 2149 阅读 · 0 评论 -
NLP--基本技能(一)
NLP资料PDF链接python 中的[::-1]for value in rang(10)涉及的数字倒序输出: for value in rang(10)[::-1]涉及的数字倒序输出:二、详解这个是python的slice notation的特殊用法。a = [0,1,2,3,4,5,6,7,8,9]b = a[i:j] 表示复制a[i]到a[j-1],以生成...原创 2018-12-26 18:09:11 · 2539 阅读 · 0 评论 -
NLP -- Word2Vector 深入学习
哈夫曼树(一)目录和前言(二)预备知识(三)背景知识(四)基于 Hierarchical Softmax 的模型(五)基于 Negative Sampling 的模型(六)若干源码细节get的知识:可以约定哈夫曼编码右边是0,左边是1。词频越大的词离根节点越近。权值大的为左孩子节点,权值小的为右孩子节点 ...原创 2018-12-13 17:45:20 · 1912 阅读 · 0 评论 -
NLP---NLTK学习和初识word2vec + kaggle项目Bag of Words Meets Bags of Popcorn(bag _of_words_model)
全体stopwords列表 http://www.ranks.nl/stopwords Word2Vect 实例:https://www.zybuluo.com/hanxiaoyang/note/472184 Kaggle项目:https://www.kaggle.com/c/word2vec-nlp-tutorial...原创 2018-12-12 21:13:38 · 2252 阅读 · 0 评论 -
粒子群算法详解
参考链接:https://blog.csdn.net/zuochao_2013/article/details/53431767?ref=myread❃粒子群算法(particleswarm optimization,PSO)由Kennedy和Eberhart在1995年提出,该算法对于Hepper的模拟鸟群(鱼群)的模型进行修正,以使粒子能够飞向解空间,并在最好解处降落,从而得到了粒子群优化...原创 2018-09-26 20:46:37 · 6073 阅读 · 0 评论 -
kaggle竞赛题实战
Kaggle竞赛题:https://www.kaggle.com/c/home-depot-product-search-relevance具体解法:https://blog.csdn.net/iam_emily/article/details/81067697Step1:导入所需df_train = pd.read_csv('../input/train.csv',encod...原创 2018-07-02 22:02:52 · 3684 阅读 · 1 评论 -
Kaggle实战1-机器学习算法与流程概述 + house-price example
参考链接:https://blog.csdn.net/han_xiaoyang/article/details/50469334 机器学习问题解决思路上面带着代价走马观花过了一遍机器学习的若干算法,下面我们试着总结总结在拿到一个实际问题的时候,如果着手使用机器学习算法去解决问题,其中的一些注意点以及核心思路。主要包括以下内容:拿到数据后怎么了解数据(可视化) 选择最贴切的机器学...原创 2018-06-24 17:07:38 · 1672 阅读 · 0 评论 -
深度学习框架Tensorflow学习--RNN实现识别数字
本文用到的公式基本来自Alex的论文,其中a表示汇集计算的值,b表示经过激活函数计算的值,w是不同节点之间连接的参数(具体睡谁连谁看下标),带下标k的是输出层,带下标h的是隐藏层相关的,除此之外你看到所有带括号的的函数都是激活函数, ϵ 和 δ 的定义看公式,L 是最后的Loss function,这里没有给出具体的计算方法,因为这和NN是一样的,可以看到输出层和普通的NN是完全一样的,接收隐藏层...原创 2018-05-29 21:29:30 · 779 阅读 · 0 评论 -
机器学习--最大熵模型
参考链接:https://www.jianshu.com/p/e7c13002440dhttps://www.cnblogs.com/wxquare/p/5858008.html详解机器学习中的熵、条件熵、相对熵和交叉熵 https://www.cnblogs.com/kyrieng/p/8694705.htmlMaxEnt 模型的求解MaxEnt 模型最后被形式化为带有约束...原创 2019-01-17 20:13:04 · 501 阅读 · 0 评论 -
SMOTE-类不平衡问题
什么是类不平衡问题 类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。 在后文中,把样本数量过少的类别称为“少数类”。 但实际上,数据集上的类不平衡到底有没有达到需要...原创 2019-03-27 21:48:55 · 1215 阅读 · 0 评论 -
Hadoop学习笔记(一)
HDFS架构图HDFS:分布式文件系统DataNode:存放文件或文件副本。块:最小64MB。 Map Reduce的四个阶段:1、Split阶段(分片输入阶段)2、Map阶段(需要编码)3、Shuffle阶段4、Reduce阶段(需要编码)Word Count实例回顾:1、Input(输入文件)2、Split阶段(分片输入阶段),将数据...原创 2019-02-14 14:26:13 · 278 阅读 · 0 评论 -
HMM与分词、词性标注、命名实体识别
HMM自己的博客链接以上为之前的HMM总结的有点抽象,这次来个实际的小项目来总结一下参考自http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.html目录HMM描述例子描述求解最可能的天气这个例子的Python代码:NLP应用小结HMM(隐马尔可夫模型...原创 2019-02-21 15:58:04 · 810 阅读 · 0 评论 -
小象学院自然语言处理第二期---笔记
参考链接:机器学习:完整机器学习项目流程,数据清洗出错:chmod能改变权限,-R是目录下所有文件,777就是高权限(读、写、执行)chmod -R 777 * 意思就是将当前目录下所有文件都给予777权限这个在服务器里不能随便敲的,不能在根目录下进行此命令,因为有些进程是指定权限(如755、700...)才能运行的...,导致打不开linux系统,需重装。 1.信息熵...原创 2019-01-28 21:29:58 · 878 阅读 · 0 评论 -
NLP--(八)深度学习制作聊天机器人+VQA+图灵机器人(三)
NLP资料PDF链接 Seq2Seq:https://blog.csdn.net/gzmfxy/article/details/78691048 **********************************************************************************************VQA...原创 2019-01-28 16:56:59 · 814 阅读 · 0 评论 -
NLP--词向量与相关应用(七)
NLP资料PDF链接原创 2019-01-16 21:34:11 · 1710 阅读 · 0 评论 -
判别式模式和产生式模型
参考:https://blog.csdn.net/qq_15111861/article/details/82189216参考:https://blog.csdn.net/Yaphat/article/details/52574748特点:产生式模型:从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度,不关心判别边界。判别式模型:寻找不同类别之间的最优分类面,反映的是异...原创 2019-01-21 18:48:28 · 408 阅读 · 0 评论 -
NLP--LDA主题模型(四)
NLP资料PDF链接 初了解:LDA初了解链接于是很容易证明,伽马函数可以当成是阶乘在实数集上的延拓,对于正整数n,具有如下性质:需要看的文章https://blog.csdn.net/sinat_26917383/article/details/71436563通俗理解LDA主题模型 项目希拉里的邮件:...原创 2019-01-09 20:32:19 · 2009 阅读 · 0 评论 -
NLP--(八)聊天机器人(二)
NLP资料PDF链接 chatterbot源码 Github上链接:https://github.com/gunthercox/ChatterBot可以尝试里面的example一、前述ChatterBot是一个基于机器学习的聊天机器人引擎,构建在python上,主要特点是可以自可以从已有的对话中进行学(jiyi)习(pipei)。二、具体1、安装是的,安装超...原创 2019-01-24 20:36:20 · 1631 阅读 · 0 评论 -
NLP--HMM(隐马尔科夫模型)(六)
NLP资料PDF链接 转自:https://www.cnblogs.com/skyme/p/4651331.html什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序...原创 2019-01-14 15:28:24 · 2885 阅读 · 0 评论 -
NLP--(八)聊天机器人(一)
NLP资料PDF链接 升级II:光是会BB还是不行,得有知识体系!才能解决用户的问题。我们可以用各种数据库,建立起一套体系,然后通过搜索的方式,来查找答案。比如,最简单的就是Python自己的graph数据结构来搭建一个“地图”。依据这个地图,我们可以清楚的找寻从一个地方到另一个地方的路径,然后作为回答,反馈给用户。In [17]:# 建立一个基于目标行业...原创 2019-01-23 20:24:59 · 978 阅读 · 0 评论 -
深度学习框架Tensorflow学习--CNN实现识别数字
参考链接:https://blog.csdn.net/qq_30159351/article/details/52641644本例子用到了minst数据库,通过训练CNN网络,实现手写数字的预测。首先先把数据集读取到程序中:mnist = input_data.read_data_sets('MNIST_data', one_hot=True)1然后开始定义输入数据,利用占位符# define p...原创 2018-05-28 21:57:12 · 1897 阅读 · 1 评论 -
梯度下降优化方法综述(Optimizer)
参考链接:https://blog.csdn.net/heyongluoyao8/article/details/52478715Tensorflow原创 2018-05-27 20:16:56 · 1237 阅读 · 0 评论 -
深度学习框架Tensorflow学习笔记(二)
交叉熵权值和偏置值的调整与 无关,另外,梯度公式中的 表示输出值与实 际值的误差。所以当误差越大时,梯度就越大,参数w和b的调整就越快,训练的速度也就越快。 如果输出神经元是线性的,那么二次代价函数就是一种合适的选择。如果输出神经元是S型函数, 那么比较适合用交叉熵代价函数初始化权值:tf.truncated_normal(shape=[10,10], mean=0, stddev=1)一般效...原创 2018-05-27 20:03:44 · 427 阅读 · 0 评论 -
机器学习(八)SVM支持向量机
线性分类器:支持向量就像我们平时判断一个人是男还是女,就是很难出现分错的情况,这就是男、 女两个类别之间的间隙非常的大导致的,让我们可以更准确的进行分类。在SVM 中,称为Maximum Marginal,是SVM的一个理论基础之一。 选择使得间隙最大的函数作为分割平面是有很多道理的,比如说从概率的角 度上来说,就是使得置信度最小的点置信度最大(听起来很拗口),从实践的角度 来说,这样的效果非常好...原创 2018-04-05 13:36:23 · 700 阅读 · 0 评论 -
机器学习(七)随机森林,GBDT,Adaboost
Bagging(装袋)Bagging的策略:(1)从样本集中重采样(有重复的)选出n个样本;(2)在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等);(3)重复以上两步m次,即获得了m个分类器;(4)将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类。疑问1:n的值如何选择?疑问2:m的值如何选择...原创 2018-04-04 22:44:47 · 1480 阅读 · 2 评论 -
机器学习(拓展)L1,L2-Norm理解
首先理解范数的概念L1、L2这种在机器学习方面叫做正则化,统计学领域的人喊她惩罚项,数学界会喊她范数。范数(norm)是数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性;②齐次性;③三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。L1就是曼哈顿距离L2就是欧式距离再理解什么是稀疏矩阵在矩阵中,若数值为0的元素数目远远多于非0元素的...原创 2018-04-04 21:09:11 · 28221 阅读 · 4 评论 -
机器学习(笔记)--决策树模型 ID3/C4.5/CART算法比较
决策树模型 ID3/C4.5/CART算法比较来自:https://www.cnblogs.com/wxquare/p/5379970.html决策树模型在监督学习中非常常见,可用于分类(二分类、多分类)和回归。虽然将多棵弱决策树的Bagging、Random Forest、Boosting等tree ensembel 模型更为常见,但是“完全生长”决策树因为其简单直观,具有很强的解释性,也有广泛...转载 2018-04-04 00:13:37 · 1242 阅读 · 0 评论 -
机器学习(六)决策树优化-剪枝
来自https://blog.csdn.net/u012328159/article/details/79285214决策树(decision tree)(二)——剪枝**注:本博客为周志华《机器学习》读书笔记,虽然有一些自己的理解,但是其中仍然有大量文字摘自周老师的《机器学习》书。 决策树系列博客: 1. 决策树(一)——构造决策树 2. 决策树(二)——剪枝 3. 决策树(decision t...原创 2018-04-03 22:49:35 · 8230 阅读 · 8 评论 -
机器学习(五)决策树(decision tree)
决策树(decision tree)(一)——构造决策树方法 决策树算法起源于E.B.Hunt等人于1966年发表的论文“experiments in Induction”,但真正让决策树成为机器学习主流算法的还是Quinlan(罗斯.昆兰)大神(2011年获得了数据挖掘领域最高奖KDD创新奖),昆兰在197...转载 2018-04-03 20:58:39 · 3010 阅读 · 0 评论 -
机器学习(十四)TF-IDF算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与...转载 2018-04-10 16:46:51 · 602 阅读 · 0 评论 -
机器学习(四)逻辑回归Logistic Regression,Softmax Regression
逻辑回归可以说是最为常用的机器学习算法之一,最经典的场景就是计算广告中用于CTR预估,是很多广告系统的核心算法。首先要熟悉下最大似然详细链接:https://blog.csdn.net/zengxiantao1994/article/details/72787849似然函数(linkehood function):联合概率密度函数称为相对于的θ的似然函数。逻辑回归Logistic Regressi...原创 2018-04-02 22:24:46 · 1188 阅读 · 0 评论 -
机器学习(三)线性回归(Ridge,Lasso)的正则化
线性回归存在一个很重要的问题就是过拟合(overfitting)问题,所谓过拟合简单直白的说就是模型的训练误差极小,而检验误差很大。一个好的学习器不仅能够很好的拟合训练数据,而且能够对未知样本有很强的泛化能力,即低泛化误差。先来看看线性回归中的过拟合现象图中左边的图表示的线性回归模型存在欠拟合现象(underfitting),欠拟合顾名思义就是对训练数据的拟合程度不够好,训练误差大。中间的...原创 2018-04-02 21:25:46 · 8919 阅读 · 2 评论 -
机器学习(十三)PCA降维原理
review点:特征值分解需要是方阵,SVD奇异值分解不需要是方阵: 如要熟悉特征值分解 、奇异值分解 参考以下链接:https://www.cnblogs.com/pinard/p/6251584.html最近突然看到一个问题,PCA和SVD有什么关系?隐约记得自己照猫画虎实现的时候PCA的时候明明用到了SVD啊,但SVD(奇异值分解)和PCA的(特征值...原创 2018-04-09 23:46:24 · 1060 阅读 · 0 评论 -
机器学习(十五)SVD(特征值分解和奇异值分解的区别)
首先从意义上理解:作者:赵文和链接:https://www.zhihu.com/question/19666954/answer/54788626来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。首先,矩阵可以认为是一种线性变换,而且这种线性变换的作用效果与基的选择有关。以Ax = b为例,x是m维向量,b是n维向量,m,n可以相等也可以不相等,表示矩阵可以将一个向量线...原创 2018-04-14 18:47:49 · 25356 阅读 · 5 评论 -
机器学习(二)梯度下降和正规方程
多维特征 目前为止,所讨论的都是单变量/特征的回归模型,也就是在对房价模型进行预测的过程中,只存在一个特征:面积 下面,将构建一个含有多个变量的模型,来进行多特征回归分析,模型的特征为(x1,x2,...,xn) n代表特征的数量 x(i)代表第i个训练实例,是特征矩阵中的第i行,是一个向量(vector)。 x(i)j代表矩阵中第i行的第j个特征,也就是第i个训练实例的第...原创 2018-04-02 11:21:41 · 2951 阅读 · 0 评论 -
机器学习(九)聚类K-means
什么是聚类聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小; 属于无监督学习 聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离 和分类算法的区别: 分类算法是有监督学习,基于有标注的历史数据进行算法模型构建 聚类算法是无监督学习,数据集中的数据是没有标注的相似度/距离公式pearson相关系数...原创 2018-04-05 23:20:58 · 972 阅读 · 0 评论 -
机器学习(十)朴素贝叶斯
贝叶斯算法:首先要知道贝叶斯定理的相关公式贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。(注)贝叶斯三种常用模型:多项式,高斯,伯努利 参考:https://blog.csdn.net/u01216261...原创 2018-04-06 00:19:32 · 564 阅读 · 0 评论 -
深度学习框架Tensorflow学习笔记(一)
1.需要在会话中完成op2.初始化操作init = tf.global_variables_initializer()3.fetch run多个opprint(sess.run([mul,add]))4.placeholder + feed_dict input1 = tf.placeholder(tf.float32,shape=[1,2])input2 = tf.placeholder(tf...原创 2018-05-27 00:15:38 · 459 阅读 · 0 评论