![40582023a22b25b73fb9fe1fa6452a7a.png](https://i-blog.csdnimg.cn/blog_migrate/c4d428128489eab9ffa4fdfa54479cbe.jpeg)
背景
因为平时建模过程中会碰到一些文本类的特征,所以整理了下该怎样处理文本特征,以及怎样做文本特征类的衍生,涉及到NLP的内容很浅显。
如果想深入学习NLP,请移步到大神微博......
文本分词
利用python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是否有强联系之类的问题。统计分词word前后word的分布概率,通过P(pre_word|word)等合并成词概率高的词。
N-gram特征统计
N-gram模型是一种语言模型,语言模型是一个基于概率的判别模型,他的输入是一句话(单词的顺序序列),输出的是这句话的概率,即这些单词的联合概率
![7524e05b96dfda7eebbe48a8c3568183.png](https://i-blog.csdnimg.cn/blog_migrate/a970ca6feb6d77928e464a3ff552ddbb.png)
N-gram的特点:
- 某个词的出现依赖于其他若干个词
- 我们获得信息越多,预测越准确
N-gram本身也指一个由N个单词组成的集合,各单词具有先后顺序,且不要求单词之间互不相同。常用的有 Bi-gram (N=2) 和 Tri-gram (N=3),一般已经够用了。例如在上面这句话里,我可以分解的 Bi-gram 和 Tri-gram :
Bi-gram : {I, love}, {love, deep}, {love, deep}, {deep, learning}
Tri-gram : {I, love, deep}, {love, deep, learning}
N-gram中的概率计算
假设我们有一个由n个词组成的句子
这个衡量方法存在两个缺陷:
- 参数空间过大:概率
的参数有O(n)个
- 数据稀疏严重,词同时出现的情况可能没有,组合阶数高时尤其明显
解决第一个问题--引入马尔科夫假设:一个词的出现仅与它之前若干个词有关
- 如果一个词的出现仅依赖于他前面出现的一个词,就是Bi-gram
- 如果一个词的出现仅依赖于他前面出现的一个词,就是Tri-gram
N-gram的N可以取很高,现实中一般Bi-gram和Tri-gram就够用了
极大似然估计求P
N-gram的用途
- 词性标注
- 垃圾短信分类
- 分词器机器翻译和语音识别
N-gram中N的确定
为了确定N的取值,《Language Modeling with Ngrams》使用了 Perplexity 这一指标,该指标越小表示一个语言模型的效果越好。
![918006287f61cda51dac4108ac4ffca9.png](https://i-blog.csdnimg.cn/blog_migrate/4a17009cfe9966c1f14e60041f5dcd25.png)
参考
自然语言处理NLP中的N-gram模型_songbinxu的博客-CSDN博客blog.csdn.net![9ac0f2c932ef7049d0323316610de81c.png](https://i-blog.csdnimg.cn/blog_migrate/97ed873b106b755f825b434167e46fcf.png)
关于作者
qq_37537170的博客_爱喝水的lrr_CSDN博客-机器学习,可视化数据分析领域博主blog.csdn.net![db64e35e72850ac4b9e93a41a56c1a46.png](https://i-blog.csdnimg.cn/blog_migrate/9a862c3704f30321c993630a87e9ace4.jpeg)