(1).把分散的连载小说下载到本地
(2)批量下载贴吧图片**
一. 下载小说
- 定义一个类
这次用类来写。实现这个也不难,经过昨天的学习已经有一定经验了。导入库什么的就不说了。先看贴吧的url构成,如http://tieba.baidu.com/p/4723863270?see_lz=1&pn=2。其中http://tieba.baidu.com/p/4723863270为该帖的基础地址,?see_lz=1是只看楼主标志位,为1是表示“只看楼主”,pn=2代表当前帖子的页码。现在来定义一个爬取百度贴吧的SpiderBaidu,初始化,然后定义一个open_url()来返回网页内容。
2. 获取标题和总页数
我们想要知道帖子标题以及总页数,提取出来就是了!
可以发现标题被<h1 class="core_title_txt(…)包含起来了,这里要注意的是,有些帖子不是(h1),可能是(h3)或者其他,一会儿匹配的时候考虑进去。