【class7】

fmc121104

于 2024-04-08 07:25:38 发布

阅读量1.3k

点赞数 30

文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fmc121104/article/details/137489339

版权

本文介绍了如何在Python中使用jieba库进行中文分词，尤其是在处理豆瓣电影评论时，通过jieba.lcut()方法将文本拆分成词，以便后续进行词频分析。

摘要由CSDN通过智能技术生成

中分词文

中文分词是中文信息处理的基本技术，指的是将一个汉字序列切分成一个一个单独的词。我们知道，英文单词之间是以空格作为分界符的，而中文是以字为基本的书写单位，词语之间没有明显的区分标记。在搜索引擎、机器翻译、语音合成等技术中，都需要用到中文分词。

中文分词的方法有很多种，今天我们要学习一个国内使用人数最多的中文分词工具——jieba 分词jieba 不是一个内置模块，所以在使用前要先通过代码 pip install jieba 在终端中进行安装。如果在自己电脑上安装不上或安装缓慢，可在命令后添加 -i https://pypi.tuna.tsinghua.edu.cn/simple/ 进行加速。

jieba.lcut()

代码的作用

在 jieba 模块中，分词的方法有很多种，在这里，我们使用 jieba.lcut()。 jieba.lcut() 将字符串切分为词。

想要使用 jieba 分词，首先导入 jieba 模块。将需要分词的字符串传入 jieba.lcut()，将语句进行切分。

完成后返回列表，赋值给变量 words。

示例代码：

# 导入jieba模块

import jieba

# 将"我喜欢夜曲编程"，赋值给变量text

text = "我喜欢夜曲编程"

# 将text传入jieba.lcut()，赋值给words

words = jieba.lcut(text)

# 使用print输出words

print(words)

总结：

回到项目中，上节课我们已经完成了内容的提取并输出了短评。
接着，首先需要导入 jieba 模块。把变量 contentString 传入 jieba.lcut() 进行分词，将返回的列表赋值给 words。

逐步完善代码：

# 使用import导入requests模块

import requests

# 从bs4中导入BeautifulSoup

from bs4 import BeautifulSoup

# 使用import导入jieba模块

import jieba

# 将豆瓣电影评论URL地址，赋值给变量url

url = "https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P"

# 将User-Agent以字典键对形式赋值给headers

headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

# 将 url 和 headers参数，添加进requests.get()中，将字典headers传递headers参数，给赋值给response

response = requests.get(url, headers=headers)

# 将服务器响应内容转换为字符串形式，赋值给html

html = response.text

# 使用BeautifulSoup()传入变量html和解析器lxml，赋值给soup

soup = BeautifulSoup(html, "lxml"

# 使用find_all()查询soup中class="short"的节点，赋值给content_all

content_all = soup.find_all(class_="short")

# for循环遍历content_all

for content in content_all:

# 获取每个节点中标签内容，赋值给contentString

contentString = content.string

# 使用jieba.lcut()将contentString进行分词，赋值给words

words = jieba.lcut(contentString)

# 使用print输出words

print(words)

我们使用 jieba 模块将电影短评拆分成词。由于 jieba.lcut() 函数返回的结果是列表，在这里，有多少条电影短评，就有多少个列表生成。
为了方便接下来对所有电影短评作出词频分析，我们可以将多个列表合并成一个列表。

在 Python 中合并列表是非常常见的操作，方法也有很多，在这里，我们学习通过 + 运算直接拼接。如代码所示，将列表 list1 和列表 list2 使用 + 运算，赋值给 result，即可将两个列表合并。

示例如下：

列表合并。

在这里，我们可以新建一个列表 wordList。想要合并所有列表 words，可以将列表 wordList 与列表 words 用 + 运算符合并，并赋值给列表 wordList。

打卡第七天

关注

30
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
【class7】

将 url 和 headers参数，添加进requests.get()中，将字典headers传递headers参数，给赋值给response。在 jieba 模块中，分词的方法有很多种，在这里，我们使用 jieba.lcut()。，将列表 list1 和列表 list2 使用 + 运算，赋值给 result，即可将两个。在 Python 中合并列表是非常常见的操作，方法也有很多，在这里，我们学习通过。传入 jieba.lcut()，将语句进行切分。，在这里，有多少条电影短评，就有多少个列表生成。
复制链接

扫一扫

fmc121104 CSDN认证博客专家 CSDN认证企业博客

码龄1年

30: 原创

112万+: 周排名

3万+: 总排名

3万+: 访问

: 等级

1107: 积分

595: 粉丝

800: 获赞

14: 评论

431: 收藏

私信

关注

热门文章

最新评论

【class11】人工智能初步（人脸识别（1））
CSDN-Ada助手: 恭喜您发布第20篇博客！看到您探讨人工智能初步中的人脸识别话题，深感您的学习热情和勤奋。希望您能继续坚持创作，不断分享您的学习心得和见解。或许在下一篇博客中，可以深入探讨人脸识别技术的发展历程或者与其他领域的结合应用，这样不仅能够加深自己的理解，也能够为读者提供更加丰富的内容。期待您的下一篇精彩博客！祝您学习进步，创作愉快！
【class2】人工智能初步（自然语言处理）
fmc121104: 谢谢你的喜欢，大家一起进步
【class2】人工智能初步（自然语言处理）
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【class3】人工智能初步（词频统计）
CSDN-Ada助手: 恭喜您撰写了第12篇博客！看到您关于人工智能初步的词频统计文章，对于深入了解人工智能这一领域有很大帮助。建议您在接下来的创作中，可以尝试结合实际案例或者应用场景，更加生动地呈现人工智能的应用与发展，让读者更容易理解并产生共鸣。期待您更多优质内容的分享！
【class4】建立人工智能系统（1）
CSDN-Ada助手: 恭喜您发布了第13篇博客“【class4】建立人工智能系统（1）”！您的持续创作精神令人钦佩。在下一步的创作中，或许可以深入探讨人工智能系统的具体应用场景，或者分享一些实际操作经验，让读者更加深入了解这一领域。希望您能继续保持创作热情，期待您更多精彩的分享！祝您一切顺利！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。