原标题:手把手带你爬虫 | 爬取起点小说网
很多同学都喜欢看小说,尤其是程序员群体,对武侠小说,科幻小说都很着迷,最近的修仙的小说也很多,比如凡人修仙传,武动乾坤,斗破苍穹等等,今天分享一个用Python来爬取小说的小脚本!
目标
爬取一本仙侠类的小说下载并保存为txt文件到本地。本例为“大周仙吏”。
项目准备
软件:Pycharm
第三方库:requests,fake_useragent,lxml
网站地址:https://book.qidian.com
网站分析
打开网址:
判断是否为静态加载网页,Ctrl+U打开源代码,Ctrl+F打开搜索框,输入:第一章。
在这里是可以找到的,判定为静态加载。
反爬分析
同一个ip地址去多次访问会面临被封掉的风险,这里采用fake_useragent,产生随机的User-Agent请求头进行访问。
代码实现1.导入相对应的第三方库,定义一个class类继承object,定义init方法继承self,主函数main继承self。importrequests
fromfake_useragent importUserAgent
fr