记录一下爬取豆瓣热门专栏的经过,通过这篇文章,你能学会requests,HTMLParser,json的基本使用,以及爬取网页内容的基本思路。
使用模块
1,获取豆瓣首页代码:首先我们需要访问豆瓣页面,获取首页的源码。这里推荐使用第三方库:requests,相比python内置的 urllib 模块,requests使用起来更简单,功能更全面
2,对获取的代码进行解析:对于解析html代码,已经有很多功能强大的框架能使用,如Scrapy,PySpider,Beautiful Soup等,这里我们只是学习下爬虫的基本使用,所以内建的 HTMLParser 足够使用了
3,对获取的数据进行处理: json
思路分析
既然我们需要的只是热门专栏模块的数据,那么我们需要一个标志来告诉我们:下面的代码就是专栏模块了,准备获取数据。同样我们需要知道当前
读取的是图片、标题还是栏目类别,以此将数据储存到相应的字段中。总的来说,我们最起码应该通过代码来实现以下几点:
1,获取网页源码
2,通过自定义方法解析html
3,通过标志位判断当前数据是否是我们需要的数据
4,通过分析代码结构决定将要储存的数据结构
5,将数据按照特定格式进行本地储存
可以看到,我们需要爬取的数据都在 ul.time-list 这个代码块里,那么我们的标志位就是:当开始标签为 ul并且具有类名 time-list时,我们就要获取数据了,当结束标签为 ul 时,停止解析,继续分析代码结构,每个 li 里面包含了对应数据里面的 详情页跳转链接,图片地址,标题以及专栏类别,那么我们的数据结构到这里也就很清楚了:一个 li 块对应一条数据,每条数据由四个字段组成:
详情页跳转链接 href --> 这里我们考虑了一下, 还是通过第二个a标签来获取,它具有统一的类名title,同时我们还能获取 标题title,
图片地址 imgUrl --> 通过每个li代码块里面唯一img标签的src属性可以轻松获取,
标题 title --> 通过 a.title获取,
专栏类别 type --> 唯一的 span 标签获取
tip:像上面我们选取数据的标志位一样,img的alt可以获取标题,a标签的文本也可以获取标题,两个a标签都能获取跳转链接不管是爬虫还是平时其他的开发,我们经常会遇到,同一个需求有多种方法实现,这时候我们就需要思考一下哪一种方法更简洁,冷静分析后的编码不一定最优秀,但自己肯定印象深刻(说远了,回归正题)。
编码实现
通过上面的准备工作,我们已经确定了需要引入的模块,解析事件触发标志位,需要获取的数据,储存的数据结构,可以正式开始编码了:
requests是第三方库,需要另外安装,其他的是内置模块,直接引入即可:
1 importrequests2 from html.parser importHTMLParser3 from html