一般文本挖掘流程

获取数据集

1、开放数据集(NLTK提供了很多数据集)
2、网页抓取
3、登录,搜索日志

数据预处理

1、除去html等无用标签(lxml、html5lib),拼写纠错(pyenchant),大小写转换(正则匹配),除去标点符号(正则匹配),处理编码,除去长度过小word,除去停用词(NLTK Stopwords,停用词就是常用却没有具体意义的word,如to)等
2、分句(正则匹配、NLTK sent_tokenize),分词(正则匹配、NLTK word_tokenize),词性标注(NLTK pos_tag),词形还原(Stemming、Lemmatisation)

生成词向量

1、GloVe
2、FastText
3、WordRank
4、BOW词袋模型、SOW词集模型
5、word2vec

模型训练

1、sklearn
2、nltk

其他

自然语言处理中常见的10个任务简介及其资源
文本挖掘示例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值