![](https://img-blog.csdnimg.cn/20191204112923600.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP
CurryCoder
个人微信公众号:CurryCoder的程序人生
技术交流QQ群:1027579432
所有代码在此https://github.com/cdlwhm1217096231,欢迎各位小伙伴star、follow、fork
个人主页:https://cdlwhm1217096231.github.io/
展开
-
A Neural Probabilistic Language Model 论文阅读及实战
1.词向量介绍在NLP任务中,第一步首先将自然语言转化成数学符号表示。一般常用的词汇表示方法:one-hot表示,这种方法是将每个单词表示为一个很长的向量,这个向量的长度是词汇表的大小,其中绝大数元素是0,只有一个元素是1,如“男人”表示为:[0 0 0 1 0 0 0 0 0 0…],“男孩”表示为:[0 1 0 0 0 0 0 0 0 0…]。one-hot方法采用稀疏的方式进行单词的表...原创 2019-03-08 15:59:55 · 1291 阅读 · 5 评论 -
中文文本中的关键字提取算法总结
0.关键词提取定义:从文本中把与这篇文章意义最相关的一些词语抽取出来。应用:在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作。1.关键词抽取的方法-----主要有两种关键词分配:给定一个已有的关键词库,对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词。关键词提取:针对新文档,通过算法分析...原创 2019-07-03 15:32:08 · 10158 阅读 · 0 评论 -
神经网络中的注意力机制总结及PyTorch实战
0.概述当神经网络来处理大量的输入信息时,也可以借助人脑的注意力机制,只选择一些关键的信息输入进行处理,用来提高神经网络的效率。在目前的神经网络模型中,可以将max pooling和gating机制近似地看作是自下而上的基于显著性的注意力机制。此外,自上而下的聚焦式注意力也是一种有效的信息选择方法。例如:给定一篇很长的文章,然后就此文章的内容进行提问,提出的问题只和文章中某个段落中的一两个句子...原创 2019-07-08 15:04:29 · 28176 阅读 · 12 评论 -
中文分词工具jieba分词器的使用
1.常见的中文分词工具中科院计算所的NLPIR哈工大LTP清华大学THULAC斯坦福分词器Hanlp分词器jieba分词IKAnalyzer2.jieba分词算法主要有以下三种:1.基于统计词典,构造前缀词典,基于前缀词典对句子进行切分,得到所有切分可能,根据切分位置,构造一个有向无环图(DAG)2.针对DAG图,采用动态规划计算最大概率路径(最优可能的分词结果),根据最...原创 2019-07-02 17:09:40 · 2646 阅读 · 0 评论 -
ubuntu16.04系统下安装fasttext文本分类库
安装方法:1.conda install libgcc(解决下面的错误)2.pip install fasttext出现错误:ImportError: /home/chris/anaconda3/lib/python3.5/site-packages/fasttext.cpython-35m-x86_64-linux-gnu.so: undefined symbol: _ZTVNSt...原创 2019-03-11 09:37:57 · 515 阅读 · 0 评论 -
Bag of Tricks for Efficient Text Classification论文阅读及实战
本文目录一、Fasttext算法综述二、原理介绍及优化策略三、Fasttext算法实战(注:以下代码仅在Linux系统下使用!)四、参考资料本文目录(仅做浏览用,简书中的MarkDown暂时不支持页面内跳转)一、Fasttext算法综述Fasttext是Facebook AI Research2016年推出的文本分类和词训练工具,其源码已经托管在Github上。Fas...原创 2019-03-07 15:18:03 · 522 阅读 · 0 评论 -
TF-IDF算法原理介绍
参考文章链接1参考文章链接2TF-IDF算法代码实战转载 2019-03-10 14:35:51 · 356 阅读 · 0 评论 -
如何在NLP领域应用卷积神经网络CNN
1.CNN使用原理(1) 相对于图片像素,在NLP任务中,将句子和文章作为一个矩阵来输入给CNN网络,矩阵中的每一行代表一个标记token,通常是一个词语,但是,也可以是一个字符。也就是说,矩阵中的每行是一个向量,这个向量代表一个词语。通常这个向量是词嵌入向量(低维表示),比如word2vec、glove,但是有时候单个词语也可以使用one-hot编码来表示该单词在词汇表中的索引。对于一个由1...原创 2019-03-10 14:34:34 · 766 阅读 · 1 评论 -
TextRNN用于文本分类
1.单向RNN结构上述公式中,权重矩阵U、V、W共享2.双向RNN(Bidirection-RNN)结构双向RNN的最终输出和中间隐藏状态的计算公式如下,正向计算与反向计算不共享权重:3.LSTM(长短时记忆网络)普通的RNN网络中只有S_t = f(Ux_t+WS_t-1),这种结构无法捕捉到长文本中远距离相关的特征,同时隐藏层的状态对短期的输入非常敏感,也会产生梯度爆炸或梯...原创 2019-03-10 14:32:29 · 1594 阅读 · 0 评论 -
简单好用的中文分词工具之HanLP的安装与使用
0.HanLP的安装pyhanlp是HanLP的Python的接口,支持自动下载与升级HanLP,兼容pthon2、python3。由于HanLP主项目采用Java开发,所以安装之前,windows系统必须先安装Java运行环境,注意安装的JDK版本一定要与python解释器的版本一种,否则后面使用会出现大坑!!!如何安装Java的JDK,见参考资料。具体安装步骤如下:0.1下载并安装J...原创 2019-06-29 22:55:34 · 2858 阅读 · 0 评论