R 文字挖掘基本流程

最新推荐文章于 2023-09-21 10:36:04 发布

Skye‘s Blog

最新推荐文章于 2023-09-21 10:36:04 发布

阅读量349

点赞数

分类专栏： R 文字挖掘

本文链接：https://blog.csdn.net/skyexx/article/details/104685684

版权

2 篇文章 0 订阅

订阅专栏

在这里插入图片描述

定义资料的来源：
新闻、社群网络、论坛、文献资料（BBC、微博、豆瓣、知乎、各大学术期刊）
定义关键字找出相关文章：
白名单：与想要分析的资料相关的一些关键字
黑名单：与白名单相似的，但与要分析的资料无关的干扰项
过滤假的信息：
有时我们需要分析留言，评论的内容，而这其中常常参杂着很多（有文章指出大约在16%，有些可能会更多）造假的评论和留言。这些是我们希望尽可能的去避免，去过滤掉的。
- 依内容
- 依发布时间（像是一般一个产品发布初期可能会有水军来刷评价）
- 依作者

目的：转成正规的语句

断句的目的：我们可以看一下一篇文章有几个句子，每个句子的长度。通过分析每个句子的长度和复杂度我们可以侧面看出教育水平。

断词的目的：中文都是以字为单位，但是要分析的话我们需要以词为单位来分析才有意义。

注：我们常常需要根据不同的分析案例来自建词典。（jiebaR提供自己自建词典）因为不同领域的一些专有名词在常用的词典中没有。

断词后去除一些缀词，口头语，感叹词（像是：啊，哦，你，我，他，总之）

欢迎关注【数据小盐罐儿】一个很“咸”的数据科学公众号，不定期分享有趣好玩的项目以及大量的学习资源。

关注