一般文本挖掘流程

青盏

于 2018-03-04 13:29:13 发布

阅读量1.6k

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16234613/article/details/79436099

版权

NLP 专栏收录该内容

8 篇文章

订阅专栏

获取数据集

1、开放数据集（NLTK提供了很多数据集）
2、网页抓取
3、登录，搜索日志

数据预处理

1、除去html等无用标签（lxml、html5lib），拼写纠错（pyenchant），大小写转换（正则匹配），除去标点符号（正则匹配），处理编码，除去长度过小word，除去停用词（NLTK Stopwords，停用词就是常用却没有具体意义的word，如to）等
2、分句（正则匹配、NLTK sent_tokenize），分词（正则匹配、NLTK word_tokenize），词性标注（NLTK pos_tag），词形还原（Stemming、Lemmatisation）

生成词向量

1、GloVe
2、FastText
3、WordRank
4、BOW词袋模型、SOW词集模型
5、word2vec

模型训练

1、sklearn
2、nltk

其他

自然语言处理中常见的10个任务简介及其资源
 文本挖掘示例

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。