爬虫基础

爬虫的一般流程

1.发送请求解析数据
通过requests库或者urllib库发送网络请求并解析数据,从而获取网络的源代码文本。
2.设定提取规则
通过设定提取规则,可以使用re或者BeautifulSoup选择从网站上爬取的内容。
3.保存数据
可以选用pandas对文本类数据进行保存。
附:以上流程也可以通过爬虫框架如scrapy实现。

获取页面源代码

这里介绍两种获取网页解析内容的方式——urllib和requests
1.urllib
在py3中urllib发送请求如下(py2中有所不同)

url='www.xxxxxxx.com'#此处为网址
req=urllib.request.urlopen(url)

可以通过.read获取代码文本

content=req.read()

2.requests
requests发送请求如下

url='www.xxxxxxxx.com'#此处为网址
req=requests.get(url)

通过.text获取源代码文本内容

content=req.text

设定提取规则

前言
我们上一步获取的content本质上就是一个包含了网页源代码的字符串,我们要从其中提取信息,实际上就是对字符串的操作,接下来将主要介绍用BeautifulSoup进行信息提取。
节点介绍
我们可以在要操作的网页上右键进行检查

鼠标移到的地方便会有对应的代码,每个形如<div都是一个节点。

 <a href="/datainfo/viewCar?carId=275014" target="_blank">华通牌</a>

对于上面的代码a是节点,href为属性,华通牌为文

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值