网络爬虫爬取小说3

最新推荐文章于 2024-09-05 17:33:10 发布

SnrtIevg

最新推荐文章于 2024-09-05 17:33:10 发布

阅读量4.9k

点赞数

分类专栏： python 文章标签： python 网络爬虫编码

本文链接：https://blog.csdn.net/Snrt_Julier/article/details/54912016

版权

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

from urllib import request
from bs4 import BeautifulSoup
import re

def getHtml(url ):
    page = request.urlopen(url)
    html_doc = page.read()
    html_doc = html_doc.replace(u'\xa0', u' ')
    html_doc = str(html_doc)
    html_doc = html_doc.replace("<br/>","\n")
    return html_doc

def getTitle(soup):
    return soup.title.string

def getContent(soup):
    return soup.find(id="content").get_text()

def getNextURL(soup):
    next_init_url = str(soup.find(id="pager_next"))
    next_url = re.search("\d+\.html", next_init_url)
    if next_url is None:
        return False
    return next_url.group()

def getBook(url,name):
    txt = ''
    book = open("./res/"+name,"w+")
    while bool(url):
        html_doc = getHtml(url)
        soup = BeautifulSoup(html_doc, 'html.parser')
        title = soup.title.string
        book_content = soup.find(id="content").get_text()
        book.write(title+book_content)
        if bool(getNextURL(soup)):
            url = re.sub("\d+.html", getNextURL(soup), url)
        else:
            break
    if not book.closed:
        book.close()
    print("ok")


url = "http://www.biqulou.net/24/24835/7406090.html"
# url = "http://www.biqulou.net/24/24835/14627850.html"
getBook(url,"大主宰")

这个是对于第三方库BeautifulSoup的使用，欢迎指教（野路子）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SnrtIevg

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫：小说下载

huoyingchong64的博客

03-14

3074

爬虫小说下载

_IsWdZh

06-18

871

爬虫即按照一定规则，自动的抓取万维网信息的程序或脚本。 URL requsets库和简单方法小说下载程序源码 URL 爬虫是根据网页的地址来寻找网页的，也就是URL（统一资源定位符）其一般格式为： protocol :// hostname[:port] / path / [;parameters][?query]#fragment # protoco...

参与评论您还未登录，请先登录后发表或查看评论

爬取小说——爬取标题和正文

AdigaAdele的博客

06-29

308

def getItem(url,code): "爬取标题+正文，url=str此章节的" hd = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.4071 SLBChan/21"} url = url + code print(url) #

Python爬虫—教你用Python爬取小说，小白也能操作（附源码）

最新发布

2301_78096295的博客

09-05

1066

最后这里免费分享给大家一份Python全台学习资料，包含视频、源码。课件，希望能帮到那些不满现状，想提升自己却又没有方向的朋友，也可以和我一起来学习交流呀。包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、机器学习、自动化测试带你从零基础系统性的学好Python！👉。

小说爬虫

指尖魔法师

01-14

199

爬一本小说的代码操作： import requests from pyquery import PyQuery # 目标地址 chapter1_url = 'http://www.biquyun.com/14_14055/9194140.html' def get_one_chapter(chapter_url): # 获取一章内容 # 使用requests工具发送请...

爬虫-小说下载

Systimax的博客

02-21

2135

爬虫——小说下载我终于爬完了这部小说，4367章，直接上代码 import requests import re import time import random from fake_useragent import UserAgent def gethtml(url, headers): i = 0 while i < 3: try: ...

python爬虫可以爬付费小说章节吗_从网站上爬取小说遇到的问题，以长安十二时辰为例——Python爬虫...

weixin_39557797的博客

02-21

9845

电视剧更新太慢，就在网上找了下原著看。一、准备工作就点击了第一个结果。看到了浏览器地址栏的网址，要养成一个习惯，确认是否是真实的网址。点击右键检查(Chrome浏览器)，Network—>Doc—>Name(找到网址后面相同的名字)—>Headers—>General：里面的Request URL是和浏览器地址栏的一致，我们也知道了Request Method 的方法是GE...

爬虫(二）小说

MurphySecret的博客

08-30

205

一个理工男的奇妙遐想文/米周壹满月的时候，在阳台上放一个碗，等一小会儿，就可以得到一碗月亮。把这碗月亮倒进西瓜汁里，你就得到一杯月亮西瓜。月亮冲淡了西瓜的甜腻，清凉可口。也可以去超市买一小瓶微风，和月亮西瓜兑在一起，喝到嘴里荡漾不停。不过小心，月亮隔夜就不新鲜了。贰雨落下来，记得收集一大罐子。在阴凉的地方不断地搅拌，一直搅拌到固液分离，—就像法国人制作奶酪那样。倒掉上层的水，剩下下面的固...

nodejs爬虫爬取小说

08-01

以上就是使用Node.js爬虫爬取小说涉及的一些核心知识点。实践中，还需要根据具体需求进行调整和优化，例如对爬取速度的控制、爬虫的多线程实现、数据清洗等。同时，遵循网络爬虫道德规范，尊重网站的robots.txt文件...

多线程java爬虫爬取小说网站

03-22

综上所述，这个"多线程Java爬虫爬取小说网站"项目涵盖了网络编程、多线程、HTML解析、数据存储等多个IT领域的知识点，对于提升Java开发者的综合技能具有很大的实践价值。通过学习和实践，我们可以更好地理解和掌握...

python爬虫爬取小说（供学习使用）

02-03

Python爬虫技术是一种用于自动化网络数据抓取的编程方法，尤其在处理大量文本信息时，如小说网站的数据，显得尤为实用。在这个项目中，我们利用Python来爬取蚂蚁**网上的小说内容，供学习和研究使用。这个过程涉及到...

网络爬虫爬取小说

weixin_50719427的博客

04-13

717

爬取小说，网络爬虫

Python 用爬虫爬取小说

qq_49635580的博客

07-25

552

from urllib import request from random import choice import re #获取网页源代码 def reponse(url,agent): headers = {'User-Agent':agent} #构造处理对象 httpHandler = request.HTTPHandler() #自定义opener opener = request.build_opener(h

python爬虫-小说（01）

qq_32828053的博客

08-06

411

python爬虫-小说（01）一、分析网址一般我们下载之前都需要看一下网页信息，进行分析实现的方式；通常来说是从最底层向外一步步实现；比如本次下载的小说是神道丹帝先打开单章，然后分析单章的下载，实现之后我们再分析实现自动获取章节信息下载，章节下载也实现了，那下一步就是自动获取小说进行整本下载；先打开单章，我们分析单章的下载如图，也就是说我们访问单章的url从响应里面就可以获取到我们需要的章节内容和章节标题；接下来我们分析实现批量章节下载，其实也就是说我们只需要把这些章节的url都获取到，循

Python爬虫之爬取小说

青柚的博客

06-12

9889

(^_−)☆本喵的放松方式是看小说，而且类型不限，属于偏好成谜的那一种。所以从爬取完天气预报开始，我就开始想着爬取小说，编写了一个还不算完善的爬取小说程序，期待你们的完善。小说来源：努努书坊：https://www.kanunu8.com/ 山海经：https://www.kanunu8.com/book3/7766/index.html 解析页面源代码：在页面源...

爬虫|菜鸟的学习之路——爬取一本小说