简洁实用的Python爬虫入门(运行通过,结果存于Excel)----爬取电影评论数据

本文介绍了使用Python基础爬虫技术爬取电影评论数据的步骤,涉及Requests库获取HTML内容、XPath解析数据以及利用pandas保存结果到Excel。通过实例展示了如何从豆瓣电影页面抓取评论并进行数据处理。
摘要由CSDN通过智能技术生成

简洁实用的Python爬虫入门(运行通过,结果存于Excel))----爬取电影评论数据


很喜欢一句话“all things are difficult before they are easy”,它鼓励我去尝试了自己觉得难的事,今天照葫芦画瓢,实现了以前比较好奇的爬虫,这里作个简单笔记。
流程参考了《1小时入门 Python 爬虫(上)》,作者写得很详细,链接: link.
一些基本语法知识参考w3school.链接: link.

基础

  • Requests :爬取评论;
  • Xpath:解析短评;
  • pandas:保存数据;

1.Requests 库

Requests 库中常用的方法:

  • requests.get():**获取 HTML 网页的主要方法,对应于 HTTP 的 GET。
  • requests.head():获取HTML 网页头信息的方法,对应于 HTTP 的 HEAD。
  • requests.post():向 HTML 网页提交 POST 请求的方法,对应于 HTTP 的 POST。
  • requests.put():向 HTML 网页提交 PUT 请求的方法,对应于 HTTP的 PUT
  • requests.patch():向 HTML 网页提交局部修改请求,对应于 HTTP 的 PATCH。
  • requests.delete():向 HTML 网页提交删除请求,对应于 HTTP 的 DELETE。

常见的对象属性:

  • r.status_code:HTTP 请求的返回状态,200表示连接成功(阅读 HTTP 状态码,了解各状态码含义);
  • r.text:返回对象的文本内容;
  • r.content:猜测返回对象的二进制形式;
  • r.encoding:分析返回对象的编码方式。

(2)Xpath 解析<

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值