![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
PCChris95
这个作者很懒,什么都没留下…
展开
-
自然语言处理之特征提取和嵌入
在经过了文本处理步骤(可参考自然语言处理之文本处理步骤)后有下列几种方法可以进行特征提取。Bag of word将这些词变成一个索引放入一个表格中,然后每个文档作为一行,统计文档中的词出现的次数。如何计算两个文档之间的相似度呢?一种方法是计算两个文章的点积,但是点积有个缺陷,只能捕捉重叠部分的,它不受其他不同值的影响,因此差别很大的两行,这两行比较长,和差别很小的两行,这两...原创 2019-04-13 14:06:40 · 2860 阅读 · 0 评论 -
自然语言处理之文本处理步骤
1, 首先将全部单词转换为小写,并清除标点符号,将其标准化2. 用分词器将这个段落或者句子分解成单个词3. 删除停止词(如:go, to, i , the , that)等以减少需要处理的词汇4. 有必要的话可以同时进行词干提取和词性还原,将词还原成词根或者词干,常见的步骤是先进行词根还原和词干提取。...原创 2019-04-12 13:13:01 · 977 阅读 · 0 评论 -
深度学习之注意力机制attention
注意力机制是深度学习在近几年最重要的一个创新。本文将介绍简要的介绍一下注意力机制的原理。Sequence to Sequence model在将注意力机制之前首先要介绍一下S2S model,在rnn中,当输入为多个序列输出也为多个序列且输入输出长度不相等时我们需要使用到S2S model,例如在机器翻译中,我们输入的很有可能是一个长句子,翻译成其他语言时它的长度发生了改变,这样的话我们便...原创 2019-04-15 14:08:03 · 7015 阅读 · 0 评论 -
自然语言处理处理之词向量构建方法实战
word2vec主要需要做中文的词向量,这里在github上找到一个比较好的例子,可以拿来参考一下。具体详细介绍请知乎专栏https://zhuanlan.zhihu.com/p/28979653github地址:https://github.com/Deermini/word2vec-tensorflowfasttextfasttext官方文档,上面有很多的已经训练好的词...原创 2019-06-14 15:11:40 · 731 阅读 · 0 评论 -
fasttext原理,实战和调参经验分享
fasttext理论知识• 参考文献 ○ https://heleifz.github.io/14732610572844.html• fasttext官方文档,上面有很多的已经训练好的词向量• embedding其实是fasttext用于分类任务时产生的副产物• fasttest主要思想 ○ (1)字符级别的n-gram word2vec把语料库中的每个单词当成原子的,它会为每个单...原创 2019-07-08 16:22:02 · 3682 阅读 · 1 评论