文本特征提取_特征提取之文本分析（侧重从文本中挖掘有价值的特征）

最新推荐文章于 2022-10-09 20:06:46 发布

weixin_39548541

最新推荐文章于 2022-10-09 20:06:46 发布

阅读量344

点赞数

文章标签：文本特征提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39548541/article/details/111576047

版权

背景

因为平时建模过程中会碰到一些文本类的特征，所以整理了下该怎样处理文本特征，以及怎样做文本特征类的衍生，涉及到NLP的内容很浅显。

如果想深入学习NLP，请移步到大神微博......

文本分词

利用python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是否有强联系之类的问题。统计分词word前后word的分布概率，通过P(pre_word|word)等合并成词概率高的词。

N-gram特征统计

N-gram模型是一种语言模型，语言模型是一个基于概率的判别模型，他的输入是一句话（单词的顺序序列），输出的是这句话的概率，即这些单词的联合概率

N-gram的特点：

某个词的出现依赖于其他若干个词
我们获得信息越多，预测越准确

N-gram本身也指一个由N个单词组成的集合，各单词具有先后顺序，且不要求单词之间互不相同。常用的有 Bi-gram (N=2) 和 Tri-gram (N=3)，一般已经够用了。例如在上面这句话里，我可以分解的 Bi-gram 和 Tri-gram ：

Bi-gram : {I, love}, {love, deep}, {love, deep}, {deep, learning}

Tri-gram : {I, love, deep}, {love, deep, learning}

N-gram中的概率计算

假设我们有一个由n个词组成的句子

），如何衡量他的概率呢？假设每个单词

都要依赖于从第一个单词

到它之前一个单词

的影响：

这个衡量方法存在两个缺陷：

参数空间过大：概率
的参数有O(n)个
数据稀疏严重，词同时出现的情况可能没有，组合阶数高时尤其明显

解决第一个问题--引入马尔科夫假设：一个词的出现仅与它之前若干个词有关

如果一个词的出现仅依赖于他前面出现的一个词，就是Bi-gram
如果一个词的出现仅依赖于他前面出现的一个词，就是Tri-gram

N-gram的N可以取很高，现实中一般Bi-gram和Tri-gram就够用了

极大似然估计求P

N-gram的用途

词性标注
垃圾短信分类
分词器机器翻译和语音识别

N-gram中N的确定

为了确定N的取值，《Language Modeling with Ngrams》使用了 Perplexity 这一指标，该指标越小表示一个语言模型的效果越好。

参考

自然语言处理NLP中的N-gram模型_songbinxu的博客-CSDN博客blog.csdn.net

关于作者

qq_37537170的博客_爱喝水的lrr_CSDN博客-机器学习,可视化数据分析领域博主blog.csdn.net

weixin_39548541

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本特征提取_特征提取之文本分析（侧重从文本中挖掘有价值的特征）

背景因为平时建模过程中会碰到一些文本类的特征，所以整理了下该怎样处理文本特征，以及怎样做文本特征类的衍生，涉及到NLP的内容很浅显。如果想深入学习NLP，请移步到大神微博......文本分词利用python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是否有强联系之类的问题。统计分词word前后word的分布概率，通过P(pre_word...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。