爬虫系列
镌守一生
这个作者很懒,什么都没留下…
展开
-
多线程爬取小说网站——全站架构完全爬取
多线程爬取小说网站“全书网”1、可爬取所有分类的文章2、包括小说的封面、作者、介绍以及每章的内容,就是说这个小说网站架构都爬下来了。3、本来是打算都爬下来的,后来发现我还是太年轻,一本书的内容就占了3到4M的数据库空间,爬到300多本以后才恍然大悟,要知道全站至少十几万本书。这你可以算一下要多少空间,我这小小服务器承担不起了。后来就改成先爬所有小说的封面、作者、书名、介绍以及链接。省略了章节...原创 2019-01-27 15:43:58 · 1044 阅读 · 0 评论 -
使用python爬取搜狐娱乐八卦新闻
使用python3的BeautifulSoup爬取搜狐娱乐八卦新闻。包括八卦标题、链接、更新时间,还有更多属性就不一一列举了声明:这是简单demo 大神请绕道#!/usr/bin/python3from bs4 import BeautifulSoupimport requestsimport time as tieprint("爬取搜狐娱乐->八卦新闻 ;栏目标题...原创 2019-01-27 16:19:29 · 894 阅读 · 0 评论