Python大数据：jieba分词，词频统计

最新推荐文章于 2024-07-25 09:48:00 发布

weixin_33778544

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量6.9k

点赞数 13

文章标签：大数据 python 开发工具

原文链接：https://yq.aliyun.com/articles/636988

版权

实验目的学习如何读取一个文件学习如何使用DataFrame学习jieba中文分词组件及停用词处理原理了解Jupyter Notebook概念中文分词在自然语言处理过程中，为了能更好地处理句子，往往需要把句子拆开分成一个一个的词语，这样能更好的分析句子的特性，这个过程叫就叫做分词。由于中文句子...

摘要由CSDN通过智能技术生成

实验目的

在自然语言处理过程中，为了能更好地处理句子，往往需要把句子拆开分成一个一个的词语，这样能更好的分析句子的特性，这个过程叫就叫做分词。由于中文句子不像英文那样天然自带分隔，并且存在各种各样的词组，从而使中文分词具有一定的难度。

不过，中文分词并不追求完美，而是通过关键字识别技术，抽取句子中最关键的部分，从而达到理解句子的目的。

Jupyter Notebook是一个交互式的笔记本工具，重点有两点
- “交互式” 让你随时随时运行并暂存结果，
- “笔记本” 记录你的研究过程

想象一下，在这之前你是如何使用Python的？

有了JN之后，你可以：

jieba模块安装请参见官方说明

jieba 是一个python实现的中文分词组件，在中文分词界非常出名，支持简、繁体中文，高级用户还可以加入自定义词典以提高分词的准确率。

它支持三种分词模式

另外它还自带有关键词摘取算法。

关注