![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 63
Ding_xiaofei
程序员
展开
-
Deeplearning for NLP (简介)
开篇过目就忘说的可能就是在下了,所以现在所有的学习内容我都会写成博客,不成博客的就是过目就忘啦。这是系列不算挖坑,前面写了几篇Tensorflow的文章,词向量这篇一直处于难产中,拖延症比较严重。争取这两天能够写出来。下面开始我们的正题,这篇博客的内容主要来源于17年牛津大学的NLP课程,这边放出课程oxford-cs-deepnlp的github地址和网易云课堂课程的视频链接,夸一下网易,很...原创 2018-05-09 13:23:38 · 817 阅读 · 0 评论 -
深度学习和文本分类
参考博客传统的文本分类模型深度学习文本分类模型fasttextfastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。 序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。 fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。 fastText 模型架构和 Wor...原创 2018-07-20 15:03:53 · 1597 阅读 · 0 评论 -
Tensorflow与NLP(CNN文本分类源码解读)
开篇好久没有更新Tensorflow与NLP系列了,时间一长就比较容易遗忘,所以今天还是要开始这些源码的解读。老规矩,原理还是一带而过,重要的是代码的解读,我相信整个代码完整的流程掌握了,原理就不在话下了。整个模型的流程在图上都有完整的体现。train.py参数设置首先是大量的参数设置# Data loading paramstf.flags.DEFINE_flo...原创 2018-07-15 12:10:40 · 2666 阅读 · 0 评论 -
从RNN到LSTM、GRU、语言模型
RNNRNN最重要的是特征就是每一时刻的结构和参数都是共享的。 先放一张盗图 RNN就好像天生为序列而生的神经网络,举个简单的例子,序列标注,比如词性标注,如图所示,x是我们输入,h是我们的输出,也就是词性。有人可能就会说,我们使用一般的神经网络也可以做到这样。 一个词一个样本就可以了,这里的话就破坏了句子的连贯性,那些多词性的还怎么标注呢。恩达是这么说的: 一个像这样单纯的神...原创 2018-07-26 11:39:18 · 5173 阅读 · 0 评论 -
依存句法分析到信息抽取
开篇依存句法分析是一个基本的NLP任务,它主要的目的就是把句子拆分成各个成分,这些成分是有一定的依存关系。由于实习项目需要分解出相应的实体和实体状态,所以这边简单的做个笔记。依存句法分析这边还是要放一篇参考博客,网上没有什么靠谱的资料,便花了点时间看了CS224n里面句法分析这一节课。主要讲了判决式句法分析。也是现在主流的句法分析方法。下面是一些要点,帮助我整体把握句法分析,具体的内容...原创 2018-07-31 17:04:33 · 5968 阅读 · 2 评论 -
百度开源的问答系统框架:ANYQ
AnyQgithub地址 AnyQ(ANswer Your Questions) 开源项目主要包含面向FAQ集合的问答系统框架、文本语义匹配工具SimNet。问答系统框架采用了配置化、插件化的设计,各功能均通过插件形式加入,当前共开放了20+种插件。开发者可以使用AnyQ系统快速构建和定制适用于特定业务场景的FAQ问答系统,并加速迭代和升级。SimNet是百度自然语言处理部于2013...原创 2018-08-10 09:23:39 · 8843 阅读 · 1 评论 -
Seq2Seq+Attention+Beam Search
开篇Seq2Seq算是我NLP里面接触比较早的模型,它来源于机器翻译,我用来做文本自动摘要。当然它在文本自动摘要领域的效果并不好。Seq2SeqSeq2Seq本质上是条件生成模型(Conditional Generation),在现有的模型中,看图说话(Image caption)也是类似的条件生成模型,它们的结构很类似,如下图所示 都是Encoder-Decoder的结构。...原创 2018-08-10 10:59:03 · 2157 阅读 · 0 评论 -
概率图模型(HMM)
开篇拖了很久,现在补上概率图的几个模型,陆续补上这部分的内容。概率算是机器学习里面比较抽象和难以理解的模型,它很多时候被应用在自然语言上的一些基本,想是词性标注,命名实体。...原创 2018-08-13 14:32:39 · 2663 阅读 · 0 评论 -
维特比算法和beam search
开篇这边本来是打算把维特比算法直接放到HMM那篇博客里面,但是发现自己在复习HMM的时候,对维特比的理解有一定的偏差,时不时会串线到beam search算法上,所以这边具体写一下他们之间的联系和区别。首先要给出的结论是它们是不同的算法,思想也是不一样的区别beam search 的操作属于贪心算法思想,不一定reach到全局最优解。因为考虑到seq2seq的inference阶...原创 2018-09-01 15:01:40 · 5647 阅读 · 0 评论 -
2018算法岗面试题整理
神经网络1、简述反向传播原理 (阿里),面试官微信发了一道反向传播的算数题,要求算出结果并解释 (要能计算的) 2、sigmoid和ReLU的优劣 3、梯度消失问题和损失函数有关吗? 4、Dropout为什么能防止过拟合? 5、Batch Normalization有什么好处? 6、讲讲Adam优化算法 7、能想到哪些衡量两个向量之间距离的方法(L1, L2, cosin...原创 2018-09-12 14:11:11 · 1683 阅读 · 0 评论 -
各大互联网公司面经集锦(附解答)
数据库数据库多表查询 MYSQL常用引擎及其区别(innoDB、MyISAM、MEMORY区别) B树、B+树数据结构、区别 select、epoll,以及边缘触发、水平触发 数据库的索引介绍一下 MySQL用的挺多,问你一下,innodb的b+树索引,主键索引,聚簇索引有什么区别。 MySQL里有哪些锁,行锁表锁,乐观锁呢,我说了版本号和MVVC,开始问我MVVC。 事务...原创 2018-09-17 15:45:19 · 1081 阅读 · 0 评论 -
评论总结生成系统(应用型)
无效评论的过滤1、像电商评论中最常出现的一种评论就是无意义的符号型的评论,比如全是数字或者全是标点的那种评论,这种评论可以使用正则表达式去剔除。 2、第二种评论就是一些无意义的文本评论了,比如说京东里面经常会有一些为了获得京豆而凑字数的评论,这类的评论同样是无效评论,对于没有任何标签的原始评论,这种无效评论其实比较难以检测。这时候我们假设每条这种无效评论都包含一定的关键词,我们找出这些关键词...原创 2018-09-13 18:52:25 · 1334 阅读 · 0 评论 -
深度学习面试题解(1-5)
开篇今天面试了一下阿里高德,面试问题记录一波,面试的时候问得还是超级细的,深度学习算法和传统的学习算法都有问到,视频面的时候我也是一塌糊涂,不过居然莫名其妙的过了。1、梯度爆炸和梯度消失的问题,这里面还顺带问了一下sigmoid函数梯度的最大值(0.25)这部分我答的好像还不是很糟糕,放上我以前写的博客,作为大家的参考https://blog.csdn.net/ding_xiaofei/a...原创 2018-09-19 00:02:32 · 584 阅读 · 0 评论 -
中文短文本相似度:WMD
开篇句子相似是目前我做问句匹配的基础。 这是我尝试使用词向量,以一种无监督方法去计算两个句子相似度的第二种方法。第一种方法,我尝试使用词向量的加权平均生成句向量来计算句子间的相似度,效果很一般,之后我会尝试使用不同的加权方法再次计算。有机会我会连着代码一起放出来。 当然我还使用了三种不同的深度学习方法来计算相似度,之后都会以代码讲解的方式呈现。WMDword mover’s dis...原创 2018-10-17 12:10:40 · 16398 阅读 · 12 评论 -
深度文本匹配模型(二):Conv-knrm模型复现
开篇这篇是基于k-nrm改进的一篇论文提出的方法。同样的作者,前后隔了一年左右的时间。前面讲k-nrm的博客我没有放出代码,这一篇我会放出一个详细的模型解读源码以供大家参考。Conv-knrmConv-knrm相比k-nrm,最大的改变就是它添加了n-gram的卷积,增加了原先模型的层次,这里有一个好处就是它能够捕捉更加细微的语义实体,交叉的粒度也更加细。这边我放上它完整的模型图,...原创 2018-10-17 12:09:01 · 7175 阅读 · 10 评论 -
深度文本匹配的基本方法
开篇这里主要的内容来自庞亮博士的一篇综述性论文,后面会放出论文的参考地址。摘要深度文本匹配模型可以分为三类: 基于单语义文档表达的深度学习模型 基于单语义文档表达的深度学习模型主要思路是,首先将单个文本先表达成一个稠密向量(分布式表达),然后直接计算两个向量间的相似度作为文本间的匹配度。 基于多语义文档表达的深度学习模型 基于多语义的文档表达的深度学习模型认为单一粒度的向量...原创 2018-07-05 12:02:49 · 9182 阅读 · 2 评论 -
TensorFlow与NLP(词向量:skip-gram)
开篇前面已经讲了两种表示文本特征的向量化方法了,到这里也可以进入我们的词向量了,词向量是近几年来NLP领域最重要的研究成果之一,我们现在再看一些基本的NLP任务也基本上再也离不开词向量的身影,今天我们就用代码的层面来看看它到底是什么?word2vec...原创 2018-05-10 10:49:56 · 3615 阅读 · 0 评论 -
TensorFlow与NLP(词袋模型:垃圾短信检测)
开篇昨天没有更新TensorFlow系列,有点跳票的意思,最近一直在参加一些小厂的算法工程师的面试,比较尴尬的是,昨天西山居的算法部门的老大直接觉得我比较水了,觉得我们在学校里面处理的文本和公司里面的差距太大了,搞得我一度无法释怀,老实说中文的文本处理还是存在很多的问题,而我也深度反省了一下自己的实战能力,同时也更加坚定地去完成这一系列博客。 既然是NLP,那么我还是先分享一下一个大厂的面试...原创 2018-04-28 00:30:35 · 2010 阅读 · 2 评论 -
TensorFlow与NLP(TF-IDF:垃圾短信检测)
开篇在NLP的前一篇文章,我希望关注的点就是我们文本的表示,说浅显一点就是词语的向量化,前面我们使用了one-hot编码,使用词袋模型,但是词袋模型几乎在现在的NLP任务中是不被使用的,只是作为一个入门的基础,我们是需要慢慢过渡到我们要使用的词向量去,当然在说词向量之前,我们还是要提一下一个比较重要的概念TF-IDF。TF-IDFTF-IDF是Text Frequency – In...原创 2018-04-29 23:57:40 · 4354 阅读 · 0 评论 -
常见的NLP处理手段和相应的spaCy库使用
开篇这篇博客主要讲的是关于英文的一些处理,关于中文的一些nlp处理后续有机会补上。本文主要有以下几个内容:基于规则的预处理常规预处理spaCy库的常规使用pointer-generator关于预处理预处理是很多NLP任务的基础,一个好的预处理对后续的NLP结果有很重要的影响。首先是关于分词的一些问题,中文分词是老大难问题,不太好分,英文就简单得多了,但是英文还是会出现一些...原创 2018-05-08 09:43:34 · 6776 阅读 · 3 评论 -
京东手机评论分析(二):关键词提取
开篇这边尝试使用三种方法去提取关键词,我希望能通过一些关键词提取出相应的属性,为了修正我们的评论属性,我还会人为去补充相应的特征词典,关于同义词的一些问题暂且放开不考虑。词频直接贴出代码import jsonimport jiebaimport jieba.analysefrom collections import Counterimport stringfrom ...原创 2018-05-26 16:03:48 · 4322 阅读 · 0 评论 -
python自然语言处理入门(NLTK)
开篇这边主要讲一些nltk的日常使用,对于我来说算是一种复习吧,希望也给大家一些入门的启发,关于nlp的一些python库,我日后会慢慢介绍,前面已经出现了一些中文处理的库,后期我想把他们放到一起讲讲。关于nltk的安装,这边就不多讲了,一条命令就可以下载,语料库在nltk_data可能比较难下载,有兴趣的可以给我留言索要。这边太大了,我无法上传。数据数据的主要来源是亚马逊的商品评...原创 2018-05-22 23:36:26 · 1287 阅读 · 0 评论 -
深度学习中文NLP任务实战(一):中文词向量的训练
待更新原创 2018-07-08 10:06:08 · 5810 阅读 · 2 评论 -
深度学习中文NLP任务实战(二):使用训练好的词向量
开篇先放上我参考的一篇博客 tensorflow 使用预训练词向量embedding层我们使用预训练的词向量,最主要的目的就是为了生成embedding层的wW = tf.Variable(tf.constant(0.0, shape=[vocab_size, embedding_dim]), trainable=False, name="W"...原创 2018-07-08 11:04:51 · 5865 阅读 · 0 评论 -
代码记录(中文NLP任务)
预处理代码分词输入一句话 输出一个词的listfrom pyltp import Segmentorfrom zhon.hanzi import punctuationdef word_cut(sentence): LTP_DATA_DIR = 'C:\\Users\\d84105613\\ltp_data' cws_model_path = os.path.jo...原创 2018-07-09 17:03:53 · 718 阅读 · 0 评论 -
深度文本匹配模型(一):k-nrm
开篇用深度学习模型去匹配句子的相似度已经是目前句子相似度的主流方法。本质上还是句子相似度的问题。深度文本匹配模型可以提供更好的搜索排序服务。它的基本场景就是:给一个query,模型返回排序靠前的document。是不是很像一个搜索引擎,其实本质上是差不多的。只不过深度文本匹配更具语义上的优势,更加智能。公司实习是做问答系统,所以最近都在刷一些文本匹配的模型,这边以博客的形式记录下来。不光是理论...原创 2018-10-17 12:06:16 · 5878 阅读 · 1 评论 -
jieba分词
待更新原创 2018-07-03 21:37:16 · 565 阅读 · 0 评论 -
NLP相关任务
开篇这是一个目录,里面包含的是对应博客的链接目录NLP+词法系列(一)关于中文分词原创 2018-06-28 16:00:13 · 368 阅读 · 0 评论 -
一篇简短的文本摘要综述
摘要的定义对海量数据内容进行提炼与总结,以简洁、直观的摘要来概括用户所关注的主要内容,方便用户快速了解与浏览海量内容。文本摘要这篇主要讲的还是文本摘要早期论文 Luhn. The Automatic Creation of Literature Abstracts (1958)困难在哪 摘要撰写是一项高度智能,同时也很” 自由” 的任务 机器写摘要 vs. 专家写摘要...原创 2018-09-13 22:00:27 · 4934 阅读 · 8 评论