这是我在csdn上第一篇博文,纪念自己第一个爬虫。虽然也是套用别人的,但是给我增加了不少信心,加油!
前言
天坑学科的小白,第一次接触爬虫。虽然过程跌跌撞撞,但是看到自己爬出来的成果,好感慨!
在这里,作为我第一次爬虫的总结,希望大家多多指教啦。可能会显得比较啰嗦~
一、爬虫是什么?
爬虫是一个很形象的词语,网路上有很多的定义。我觉得最直观的是:自动化地批量从网页上抓取数据,例如抓取出行网站上的信息等(我真的不知道啊)
二、爬虫过程
1.明确目标
这次爬虫,我主要是想让自己参与一个小项目,从这个过程中了解和掌握爬虫的技术。因此,我就按照知乎上的一个回答来照猫画虎一番。链接如下:
如何入门 Python 爬虫? - DataCastle数据城堡的回答 - 知乎
相同地,我想批量抓取豆瓣上《一个女人和浴室》的评价。
用python的requests+xpath的模式
2.编写代码
第一步 寻找目标的xpath
首先打开《一个女人和浴室》的网页,选择某一个评论,右键然后选择“检查”,即可查看elements,再右键选择copy,copy xPath即可。
随后即可得://[@id=“comments”]/div[1]/ul/li[1]/div[2]/p/span
同样的方法,可以得到:
//[@id=“comments”]