网络爬虫基础流程

 

 

 

 

1.发起请求

      通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应。如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型。

      基于Urllib的Requests库:主要有:GET/POST两种类型常用,另外还有HEAD/PUT/DELETE/OPTIONS

 

2.解析内容

      得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。

解析方法:

 

  1. 直接处理
  2. Json解析
  3. 正则表达式处理
  4. BeautifulSoup解析处理
  5. PyQuery解析处理
  6. XPath解析处理

 

3.保存数据

      保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件。

保存方式:

 

文本:纯文本,excel, Json, Xml等

关系型数据库:如mysql, oracle, sql server等结构化数据库

非关系型数据库:MongoDB, Redis等key-value形式存储

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值