python文本分析之jieba分词工具

最新推荐文章于 2025-03-09 10:46:14 发布

皮卡猪猪

最新推荐文章于 2025-03-09 10:46:14 发布

阅读量5.1k

点赞数 16

分类专栏：数据分析项目实践心得文章标签：数据分析分词 jieba 文本分析

本文链接：https://blog.csdn.net/qq_40589051/article/details/90514833

版权

本文介绍了文本分析的基本理解、流程，并详细探讨了jieba分词工具的算法原理、用法，包括精确模式、全模式、搜索模式。通过实例展示了jieba在分词、关键词抽取等方面的应用，并提及了词性标注和停用词处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一年前老师给了我一个文本数据分析的项目，所以稍微了解了一下中文文本分析的非常浅显的知识，在此做一下记录。因为自然语言处理这一块我只是为了完成项目而做了一些了解，所以肯定有不太对的地方，谅解一下啦~、

---------------------一个假的目录----------------------

自己对于文本分析的理解

文本分析的流程

jieba分词工具涉及到的算法原理简介（自己的浅显理解）

jieba分词工具的用法

1自己对于文本分析的理解

文本分析就是从一段文字性数据中，阅读理解出作者的意思，比如好恶、倾向、情绪等等或是分析文本的客观类别（比如电影的类型）。使用到的领域是非常多的，比如论文打分系统、判断论文有没有抄袭的系统、舆情分析、股民情绪分析等等。

我最近接触到的呢就是文本按照类型聚类、文本相似度分析、从论坛或者新闻中分析出股民的情绪等等课题，需要使用到的文本数据处理工具和算法最多的就是jieba分词工具、一些词典、TF-IDF、余弦相似度算法，真的是自然语言处理中最基础的部分啦。（所以我的记录真的是纯菜鸡的记录♪(^∇^*) 嘻嘻）

2文本分析的流程

所有文本分析课题的流程都逃不开这几步：（自我感觉哈）

数据收集

数据清洗

文本向量化

模型训练

分析结果

这几步中的每一步里面涵盖的很多问题都把我整的晕头转向.....数据收集涉及到爬虫、清洗涉及到分词、去重、删除或者填补空值和错值、提取关键词汇等步骤，向量化又是另一个long long long story了...里面涉及了无监督算法、有监督算法、词典之类的东西，模型训练就更别提那么多种机器学习模型和统计模型了.....等做到分析结果的时候，要是结果不如意还得重新来....终于知道自己头发怎么没有的了，真是苍天告诉我不要认输.......(灬ꈍ ꈍ灬)

哈哈，内容是不是超级多，不过文章篇幅有限（懒），这里我只把学习到的数据清洗中的分词和关键词提取方法做个简单的介绍~