关于软件分词的几个问题总结

最新推荐文章于 2023-05-09 10:38:56 发布

bla234

最新推荐文章于 2023-05-09 10:38:56 发布

阅读量4.2k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bla234/article/details/50877246

版权

最近初学数据挖掘之文本分析，第一步还是尝试着熟悉一下大致的流程，

关于采集方面的总结请详参之前发的那篇《关于火车头网络爬虫的几个常见问题》

第二步是分词，视频教程中有几点值得注意的地方是，

（1）在合并完多个评论文件后，记得用word文档实现空行（^p^p）到空白的替换，防止rost分词系统读到空行就分词结束了

（2）在停用词表更新后应该重新在rost里面打开，防止更新的词表不能被读取使用

实践中存在的问题如下，

（1）首先是，用rost分词后没有出现词性标注，虽然按照那个视频的道理来说是没有也能实现后面的情感分析，但是我实操是

并未成功，后来还是有个朋友说用中科院的ICTCLAS2015分词系统，才实现了词性标注，然后再用rost的情感分析才分析成功

（2）未词性标注前的分词多次后，出现了rost一分析就error（有一次停用词表没有设置之后就一直崩了），删除后再次解压使用

（3）实际采集样本火车头显示是200条，但是分析完是300+条，原因可能是由于id未分离，而采集的时候也未采集完200个id，

因此造成介于200至400之间的一个数据显示

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
关于软件分词的几个问题总结

最近初学数据挖掘之文本分析，第一步还是尝试着熟悉一下大致的流程，关于采集方面的总结请详参之前发的那篇《关于火车头网络爬虫的几个常见问题》第二步是分词，视频教程中有几点值得注意的地方是，（1）在合并完多个评论文件后，记得用word文档实现空行（^p^p）到空白的替换，防止rost分词系统读到空行就分词结束了（2）在停用词表更新后应该重新在rost里面打开，防止更新的词表不能被
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。