本文是基于慕课网教程(http://www.imooc.com/learn/563)编写的。讲师非常棒,把爬虫的架构思想讲得简单易懂,最后实现了一个爬取百度百科内容的爬虫。
基于python2.7,IDE用的是PyCharm(https://www.jetbrains.com/pycharm/)。
目标:以百度百科python词条为root_url(http://baike.baidu.com/view/21087.htm),该词条页面的其他所有词条链接为后继,共1000条,循环获取他们的标题及简介。最终输出到一个html文件中。
分析:
root_url : http://baike.baidu.com/view/21087.htm
后继链接类似 : /view/21087.htm
标题类似 :
<dd class="lemmaWgt-lemmaTitle-title">
<h1>Python</h1>
</dd>
简介类似 :
<div class="lemma-summary" label-module="lemmaSummary">
......
</div>
总共5个类,各功能代码如下: