python网站源码_盗版网站看小说太多广告？30行python爬取全网全本小说（附源码）...

最新推荐文章于 2024-04-11 09:01:29 发布

一哥爱罗拉

最新推荐文章于 2024-04-11 09:01:29 发布

阅读量281

点赞数

文章标签： python网站源码

本文链接：https://blog.csdn.net/weixin_35509069/article/details/113313972

版权

今天一个远房同学问我有没有网站可以下载小说，我说没有啊你要找哪个小说(心里有点鄙视他，心想现在什么小说在手机上很多app不是都能找到吗，自信搜索能力的我准备帮人帮到底)

但是他说，app上广告太多，并且他看小说是装备上班摸鱼的时候，不方便拿出手机，然后我问是什么小说，他说《医圣之最强狂兵》，我当然没看过了，搜索了半天只找到了一些人分享的网盘地址，点进去发现里面只有前几章的txt，——预知后事如何请加下面VX….$%#^%&^&&a

我一脸天真的加了一下，还以为是只想凑点击率和关注量的分享小说的公众号，结果是个人账号，=。=，对，就如你所想，六块钱红包她就会发给我小说。

算了吧，有那钱干点啥不好，自己又不是不会爬虫。

于是随手写了下面的程序。

网站如下：

# -*- coding: utf-8 -*-from bs4 import BeautifulSoupimport requestsimport codecsdef get_url_list(url): html = requests.get(url) soup = BeautifulSoup(html.content, 'lxml')#content如果换成text会有乱码 url_list = [] list = soup.select("#list > dl > dd > a") for i in list: i = i.get("href") i = 'http://www.biqugecom.com' + i url_list.append(i) url_list = url_list[9:-1] print url_list return url_listdef get_data(url): html = requests.get(url) soup = BeautifulSoup(html.content, 'lxml') fo = codecs.open('output.txt', 'a+', 'utf-8'); # 以二进制写入章节题目 需要转换为utf-8编码，否则会出现乱码 section_name = soup.select("#wrapper > div.content_read > div > div.bookname > h1")[0].text print section_name fo.write(('' + section_name + '')) section_text = soup.select("#content") for x in section_text: a = x.text.replace('readx();', '').replace('www.biqugecom.com/20/20341/', '') fo.write((a)+ '') # 以二进制写入章节内容 fo.close() # 关闭小说文件if '__main__' == __name__: url = 'http://www.biqugecom.com/34/34055/' url_list = get_url_list(url) for n in url_list: get_data (n)

最后将3.24MB的txt文件交给他的时候，他是内牛满面的=。=

因为程序太简单了，所以就不做详细的说明了。

如果有任何问题可以在留言交流或者自行google

学习从来不是一个人的事情，要有个相互监督的伙伴，工作需要学习python或者为了入行、转行学习python的伙伴可以私信回复小编“学习”，资源共享和大牛面对面交流

一哥爱罗拉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网站源码_盗版网站看小说太多广告？30行python爬取全网全本小说（附源码）...

今天一个远房同学问我有没有网站可以下载小说，我说没有啊你要找哪个小说(心里有点鄙视他，心想现在什么小说在手机上很多app不是都能找到吗，自信搜索能力的我准备帮人帮到底)但是他说，app上广告太多，并且他看小说是装备上班摸鱼的时候，不方便拿出手机，然后我问是什么小说，他说《医圣之最强狂兵》，我当然没看过了，搜索了半天只找到了一些人分享的网盘地址，点进去发现里面只有前几章的txt，——预知后事如何...
复制链接

扫一扫