Python爬虫新手入门第一节,爬取笔趣阁小说!

这篇博客是Python爬虫新手入门教程,作者分享了如何爬取笔趣阁小说的详细过程,包括代码思路、模块安装、XPath使用方法,以及完整代码示例。旨在帮助初学者理解爬虫基本操作,并欢迎读者提出建议和改进。
摘要由CSDN通过智能技术生成

不识有话说

作为一个爬虫萌新,第一个小项目当然是爬一爬我们的萌新之友-《新笔趣阁》
虽然没什么难度,
不过还是分享一下自己的代码历程,
希望能给予大家一些思路或帮助,
当然,如果有大佬能够指出错误或可以改进的地方,
那当然更好了,
等你呦~

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

 

项目展示

在讲解项目之前,
先给你们展示一下功能,
不然看了半天,
结果不是自己想要的那不是自闭了。
<----------------------------------分割线------------------------------------->

 

 

说实话,感觉我挺憨的才能写出这种代码,谁下载小说不是一整本一整本下,
结果也就我傻大憨的一章一章下,甚至还觉得自己好牛,害

代码思路讲解

项目要用到的模块

import os
from time import sleep
import requests
from lxml import etree
1234

没有的话可以自行安装,虽然大部分小伙伴应该都知道,但还是说一下

pip/pip3 install 想要安装的模块名
1

模块安装好了接下来讲解代码了

import os
from time import sleep

import requests
from lxml import etree

# 新笔趣阁的全部小说界面链接,所有小说链接都在这里
url = 'http://www.xbiquge.la/xiaoshuodaquan/'
# 请求头
headers = {
    'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
}
# 向新笔趣阁发送get请求
all_book_r = requests.get(url, headers=headers)
# 解析返回的HTML页面数据
all_book_html = etree.HTML(all_book_r.content.decode('utf-8&#
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值