python:爬虫思路,借鉴文章
一、明确需求
- 首先我们要明白我们爬取的具体是什么内容,比如爬取文章标题,爬取图片,爬取实时新闻
二、建立request请求
- 1.使用的是哪一种请求方式,get post等
- 2.获取请求URL,确定请求连接
- 3.拼接头部信息,User-Agent,Host,Cookies等
- 4.设置请求体,即请求时额外携带的数据,比如表单提交时的表单数据。
三、获取数据
- 获取请求响应状态,比如200、404、301、502等;
四、解析数据
- 1、使用json解析数据;
- 2、使用正则表达式提取数据;
- 3、使用BeautifulSoup库来处理数据;
- 4、使用PyQuery来解析数据;
五、存储数据
- 1、可使用纯文本、json、xml等存储;
- 2、使用关系型数据库存储,如mysql、oracle等;
- 3、使用非关系型数据库存储,如mongodb、redis等;
- 4、图片、视频等可直接保存。