第一次爬虫:处理pip问题,还有xpath

本文是作者初次尝试爬虫的经验分享,使用Python的requests库和xpath进行网页数据抓取。在遇到pip升级和lxml安装问题后,通过调整网络环境和修改命令成功解决。在爬取豆瓣电影评论时,遇到反爬虫机制,通过设置header和修正xpath语法最终获取所需数据。
摘要由CSDN通过智能技术生成

这是我在csdn上第一篇博文,纪念自己第一个爬虫。虽然也是套用别人的,但是给我增加了不少信心,加油!


前言

天坑学科的小白,第一次接触爬虫。虽然过程跌跌撞撞,但是看到自己爬出来的成果,好感慨!


在这里,作为我第一次爬虫的总结,希望大家多多指教啦。可能会显得比较啰嗦~

一、爬虫是什么?

爬虫是一个很形象的词语,网路上有很多的定义。我觉得最直观的是:自动化地批量从网页上抓取数据,例如抓取出行网站上的信息等(我真的不知道啊)

二、爬虫过程

1.明确目标

这次爬虫,我主要是想让自己参与一个小项目,从这个过程中了解和掌握爬虫的技术。因此,我就按照知乎上的一个回答来照猫画虎一番。链接如下:
如何入门 Python 爬虫? - DataCastle数据城堡的回答 - 知乎
相同地,我想批量抓取豆瓣上《一个女人和浴室》的评价。
用python的requests+xpath的模式

2.编写代码

第一步 寻找目标的xpath

首先打开《一个女人和浴室》的网页,选择某一个评论,右键然后选择“检查”,即可查看elements,再右键选择copy,copy xPath即可。
查看目标的xPath
随后即可得://[@id=“comments”]/div[1]/ul/li[1]/div[2]/p/span
同样的方法,可以得到:
//
[@id=“comments”]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值