“21天好习惯”第一期- 2 简单爬虫函数

所谓爬虫其实就是程序将自己伪装成浏览器来代替用户进行元素提取操作,那么初学者该如何写一个简单的爬虫函数呢?其实也就三步。

1.编写headers

要想伪装成浏览器,headers是必不可少的,这个东西其实就是网站识别访问者身份的重要凭证,如果爬虫本身没有headers,那么绝大多数网站都会拒绝爬虫访问。

如上图, user-agent相当于浏览器的身份证,网站可以通过它来判别访问者是不是爬虫,cookie则是浏览器对网站进行的操作数据的保存文件,有了这两件凭证,爬虫可以在绝大多数网站中畅行无阻。

2.数据解析

首先导入requests模块

然后res保存网页文本,requests库中的get方法可以将网页以文本方式解析出来,当然,需要传入网页链接和headers,etree中的HTML则是将保存的res以html树型结构再次进行解析,最后用html保存。

 3.元素提取

这一步最为简单,只需用浏览器打开你的目标网页,按下F12打开开发者模式,点击工具栏最左上角按钮,再点击即可找到元素在代码中的位置,以哔哩哔哩为例,代码中深色区域为元素位置

 右击鼠标,如图所示,点击复制XPATH

 到此为止就完成了元素提取

 

 

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值