python3.5爬虫完成笔趣阁小说的爬取

内容简介:

本文主要是利用python3.5完成了笔趣阁小说的爬虫程序存储章节txt到本地,方便阅读。

需求:

由于手机最近阅读笔趣阁的小说插了特别多的广告特别麻烦;所以就做了个小程序实现下文本的爬取,全部把小说爬取下来存储成txt,放到手机上阅读。

过程:

说做就做,本来python爬虫就比较简单,笔趣阁的模块也都是直接读取源代码就可以获取文字;所以就都读下来了。

如果想全部存储到一个文档,对应的改动程序,让列表添加,再一次写入就行。

附上源码:有兴趣的可以设置下对应的文件夹,就可以直接写到上面的直接os.makefiles();

下载其它小说请注意修改 [下载到的本地目录, 书号, 起始index号]

源码:

importreimporturllib.requestasrequestfrombs4importBeautifulSoupimportrequests '''全局变量声明, 下载其它小说请注意修改 [下载到的本地目录, 书号, 起始index号]'''downLoadFile ='F:\\txt_cpxs\\'##要下载到的目录shuhao ='2_2970'## 书号就是http://www.biquge.com/2_2970/2456497.html; com后面的那个。start, end =2456497,100000 defsetSrr(url):if(requests.get(url).status_code ==404):print('这是个错误网址')return[]print('正在打开 ',url)    l  = []  '''''请求响应和不响应的处理'''    response = request.urlopen(url)            html = response.read()        soup = BeautifulSoup(html)  item = soup.findAll('h1')title = re.match(r'(.*)<h1> (.*)</h1>(.*)', str(item) ,re.M|re.I).group(2)l.append(title.split(' ')[0])    l.append(title)  strings = soup.findAll('div', id="content")[0];forstringinstrings:        st = string.__str__()  if(len(st.split('<br/>')) >1):passelse:            l.append(st)  returnl#strings.split()  #穿入字符串 写入文件;标题为l[0]  defsetDoc(l):if(len(l) <2):returnfile_s = downLoadFile  + l[0] +'.txt'file = open(file_s,'w+', encoding='utf-8')foriinl:file.write('\t')foriiini.split('    '):            file.write(ii)  file.write('\n') #开始自加数值;读取新文档;如果没有;那么跳过  ''''' 最开始设置为1066142,100  '''defsetNum(num,n):l = [(num + i)foriinrange(n)]sl = [str(l[i])foriinrange(len(l))]returnsl      '''''自动产生新的url''' '''''  自己观察到:第一章的地址http://www.biquge.com/2_2970/2456497.html最后一张的地址 http://www.biquge.com/2_2970/3230837.html'''defsetNewUrl(sl):    urls = []  forxinsl:xsr ='http://www.biquge.com/'+ shuhao +'/'+ x +'.html'#对应的单章html        urls.append(xsr)  returnurls  defsetTxts(urls):forurlinurls:        setDoc(setSrr(url))        print(  '''''--------------开始下载超品相师--------------——actanble 手打——如果要下载其他的txt文件: 请修改——URL 和 对应的起始html的index号。''')  setTxts(setNewUrl(setNum(start, end)))

对于初学者想更轻松的学好Python开发,爬虫技术,Python数据分析,人工智能等技术,这里也给大家准备了一套系统教学资源,加Python技术学习教程qq裙:1005819593,免费领取。学习过程中有疑问,群里有专业的老司机免费答疑解惑!

 

0人点赞

 

日记本

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值