先简单的讲下爬虫的业务逻辑:
- 访问网站
- 获取内容的目录页面
- 获取总页数
- 解析目录页面并提取每个url地址
- 重复第4步直到把每一页的URL都获取
- 访问获取的url进入详情页
- 解析详情页并记录需要的数据
- 重复第7步直到把所有详情页爬去完
初步逻辑就是这样这是最理想的情况,这里没有考虑反爬虫情况。
下面讲讲我自己怎么用python爬虫
首先是python的环境搭建,我现在使用的是2.7版本的,开发软件是pycharm,然后安装一些Python的库:
- requests–用于网页请求
- lxml–用于页面解析
- beautifulsoup4–用于页面解析
储存通过redis和TXT组合使用
先上代码块
以爬取百度为例
r = requests.get('https://www.baidu.com/')
print r.text
这样就返回了一个网站的源码页面,当然如果需要爬列表需要加上页码一页几条,这个需要根据具体情况分析,之后是解析获取的文本
soup = BeautifulSoup(html,"lxml")
把获取的html转化成soup格式,通过对内容解析获取数据。