第一次爬虫：处理pip问题，还有xpath

Jianhao21

于 2021-01-07 22:11:44 发布

阅读量481

点赞数

分类专栏：小白爬虫文章标签： python xpath 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41785443/article/details/112335487

版权

本文是作者初次尝试爬虫的经验分享，使用Python的requests库和xpath进行网页数据抓取。在遇到pip升级和lxml安装问题后，通过调整网络环境和修改命令成功解决。在爬取豆瓣电影评论时，遇到反爬虫机制，通过设置header和修正xpath语法最终获取所需数据。

摘要由CSDN通过智能技术生成

这是我在csdn上第一篇博文，纪念自己第一个爬虫。虽然也是套用别人的，但是给我增加了不少信心，加油！

文章目录

前言
一、爬虫是什么？
二、爬虫过程
三、归纳总结

前言

天坑学科的小白，第一次接触爬虫。虽然过程跌跌撞撞，但是看到自己爬出来的成果，好感慨！

在这里，作为我第一次爬虫的总结，希望大家多多指教啦。可能会显得比较啰嗦~

一、爬虫是什么？

爬虫是一个很形象的词语，网路上有很多的定义。我觉得最直观的是：自动化地批量从网页上抓取数据，例如抓取出行网站上的信息等（我真的不知道啊）

二、爬虫过程

1.明确目标

这次爬虫，我主要是想让自己参与一个小项目，从这个过程中了解和掌握爬虫的技术。因此，我就按照知乎上的一个回答来照猫画虎一番。链接如下：
如何入门 Python 爬虫？ - DataCastle数据城堡的回答 - 知乎
相同地，我想批量抓取豆瓣上《一个女人和浴室》的评价。
用python的requests+xpath的模式

2.编写代码

第一步寻找目标的xpath

首先打开《一个女人和浴室》的网页，选择某一个评论，右键然后选择“检查”，即可查看elements，再右键选择copy，copy xPath即可。
查看目标的xPath
随后即可得：//[@id=“comments”]/div[1]/ul/li[1]/div[2]/p/span
同样的方法，可以得到：
//[@id=“comments”]

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。