自学python爬虫方法，对网络小说进行抓取！

最新推荐文章于 2024-07-30 11:14:47 发布

珍珍珍香O_o

最新推荐文章于 2024-07-30 11:14:47 发布

阅读量325

点赞数 1

分类专栏： python爬虫文章标签：爬虫 html python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74059969/article/details/129738228

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

#先导入爬虫运用到的两个库和对文件操作的os模块
import requests
import lxml.html
from lxml import etree
import os

#获取网站的url以及伪装自己
url="https://www.1biqug.net"
base_url="https://www.1biqug.net/29/29370/"
headers = {
    'Host': 'www.1biqug.net',
    'Referer': 'https://www.1biqug.net/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63'}


#爬取文章的目录，用etree方法解析成html文本形式寻找信息
req=requests.get(url=base_url,headers=headers)
html=lxml.etree.HTML(req.text)
req2=etree.tostring(html)
str=req2.decode("utf-8")

novel_save_dir=os.path.join(os.getcwd(),"novel_cache/")#文章的加入入径
herfs=html.xpath("//dd/a/@href")[12:]#获取文章链接

#对每章的链接进行循环访问
for herf in herfs:
    urls=url+herf
    re1=requests.get(urls)
    re1.encoding="utf-8"
    content1=etree.HTML(re1.text)
    titlt_head=content1.xpath("/html/body/div/div/div/div/h1/text()")[0]#每章的名字
    print(titlt_head)

    content2=content1.xpath("/html/body/div/div/div/div//text()")
    #循环了每章的内容


#保存文章
    neir=""
    for x in content2:
        neir = neir+x+"\n"
    with open(os.path.join("novel_cache",titlt_head +".txt"),"a",encoding="utf-8") as f:
        f.write(neir)
        print("下载成功")

珍珍珍香O_o

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
自学python爬虫方法，对网络小说进行抓取！

学习运用requerts模块和lxml模块对小说进行抓取
复制链接

扫一扫

专栏目录

珍珍珍香O_o

博客等级

码龄2年

4
原创

3
点赞

0
收藏

1
粉丝

关注

私信

热门文章

分类专栏

c 1篇
python爬虫 1篇

最新评论

c的基础知识点复习
CSDN-Ada助手: 恭喜您写完了第四篇博客！标题为“c的基础知识点复习”真是不错的选择。不仅令人期待地复习了C语言的基础知识，还为读者提供了一个学习和巩固的机会。在接下来的创作中，或许您可以考虑加入一些具体的例子或案例，以帮助读者更好地理解和运用这些知识点。我相信您在这方面一定有许多独到的见解和经验，期待看到更多精彩的文章！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
实战：利用redis存储url，并将爬取的数据写入mongoDB中
CSDN-Ada助手: 恭喜您写出了第三篇博客，分享了利用redis存储url和将爬取的数据写入mongoDB的实战经验，内容十分实用。接下来建议可以探讨如何优化爬取效率，或者分享其他实践经验，期待您的下一篇文章。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
自学python爬虫方法，对网络小说进行抓取！
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。