简洁实用的Python爬虫入门（运行通过，结果存于Excel）----爬取电影评论数据

最新推荐文章于 2024-04-01 14:49:10 发布

supervector

最新推荐文章于 2024-04-01 14:49:10 发布

阅读量2.1k

点赞数 2

分类专栏：爬虫文章标签： Python爬虫爬虫入门 Python爬虫库结果存成excel

本文链接：https://blog.csdn.net/supervector/article/details/83758164

版权

本文介绍了使用Python基础爬虫技术爬取电影评论数据的步骤，涉及Requests库获取HTML内容、XPath解析数据以及利用pandas保存结果到Excel。通过实例展示了如何从豆瓣电影页面抓取评论并进行数据处理。

摘要由CSDN通过智能技术生成

简洁实用的Python爬虫入门（运行通过，结果存于Excel））----爬取电影评论数据

- 基础
- 代码
- 结果

很喜欢一句话“all things are difficult before they are easy”，它鼓励我去尝试了自己觉得难的事，今天照葫芦画瓢，实现了以前比较好奇的爬虫，这里作个简单笔记。
流程参考了《1小时入门 Python 爬虫（上）》，作者写得很详细，链接: link.
一些基本语法知识参考w3school.链接: link.

基础

Requests ：爬取评论；
Xpath：解析短评；
pandas：保存数据；

1.Requests 库

Requests 库中常用的方法：

requests.get()：**获取 HTML 网页的主要方法，对应于 HTTP 的 GET。
requests.head()：获取HTML 网页头信息的方法，对应于 HTTP 的 HEAD。
requests.post()：向 HTML 网页提交 POST 请求的方法，对应于 HTTP 的 POST。
requests.put()：向 HTML 网页提交 PUT 请求的方法，对应于 HTTP的 PUT
requests.patch()：向 HTML 网页提交局部修改请求，对应于 HTTP 的 PATCH。
requests.delete()：向 HTML 网页提交删除请求，对应于 HTTP 的 DELETE。

常见的对象属性：

r.status_code：HTTP 请求的返回状态，200表示连接成功（阅读 HTTP 状态码，了解各状态码含义）；
r.text：返回对象的文本内容；
r.content：猜测返回对象的二进制形式；
r.encoding：分析返回对象的编码方式。

（2）Xpath 解析<

最低0.47元/天解锁文章

supervector

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
10
评论
简洁实用的Python爬虫入门（运行通过，结果存于Excel）----爬取电影评论数据

简洁实用的爬虫入门----爬取电影评论数据基础代码结果很喜欢一句话“all things are difficult before they are easy”，它鼓励我去尝试了自己觉得难的事，今天照葫芦画瓢，实现了以前比较好奇的爬虫，这里作个简单笔记。流程参考了《1小时入门 Python 爬虫（上）》，作者写得很详细，链接: link.一些基本语法知识参考w3school.链接: li...
复制链接

扫一扫