Python爬虫学习:三、爬虫的基本操作流程

Python爬虫学习:爬虫的基本操作流程

一般我们使用Python爬虫都是希望实现一套完整的功能,如下:

1.爬虫目标数据、信息;

2.将数据或信息存入数据库中;

3.数据展示,即在Web端进行显示,并有自己的分析说明。

这次我先介绍第一个功能中所需要实现的基本操作:

爬虫的基本操作:

(正常)表示必须步骤 (删除线)表示可选步骤

  1. 导入爬虫所需要的库(如:urllib、urllib2、BeautifulSoup、Scrapy等)
  2. 定义目标链接:url=“http://www.cnblogs.com/Maple2cat/”
  3. 添加data信息:data为字典类型,可以添加name,password等一些登录所需信息
  4. 定义headers:有些网站会识别链接是否由浏览器发出的请求,需要定义headers用伪装是浏览器所访问的
  5. 如果在第三步中添加了data信息,则需要对data进行转编码:urlencode(data)
  6. 请求链接:res=urllib2.Request(url,data,headers)
  7. 读取HTML源码:html=res.read()
  8. **解析html,一般常用的方法有两种:¹ 正则表达式(根据提取规则截取目标内容);² BeautifulSoup(根据html标签进行提取,如:……)
    **
  9. 存入本地或者数据库

如有侵权,请联系删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值