使用python爬虫(一)

先简单的讲下爬虫的业务逻辑:

  1. 访问网站
  2. 获取内容的目录页面
  3. 获取总页数
  4. 解析目录页面并提取每个url地址
  5. 重复第4步直到把每一页的URL都获取
  6. 访问获取的url进入详情页
  7. 解析详情页并记录需要的数据
  8. 重复第7步直到把所有详情页爬去完

初步逻辑就是这样这是最理想的情况,这里没有考虑反爬虫情况。

下面讲讲我自己怎么用python爬虫

首先是python的环境搭建,我现在使用的是2.7版本的,开发软件是pycharm,然后安装一些Python的库:

  1. requests–用于网页请求
  2. lxml–用于页面解析
  3. beautifulsoup4–用于页面解析

储存通过redis和TXT组合使用


先上代码块
以爬取百度为例

r = requests.get('https://www.baidu.com/')
print r.text

这样就返回了一个网站的源码页面,当然如果需要爬列表需要加上页码一页几条,这个需要根据具体情况分析,之后是解析获取的文本

soup = BeautifulSoup(html,"lxml")

把获取的html转化成soup格式,通过对内容解析获取数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值