多线程爬取小说

最新推荐文章于 2024-07-02 10:24:12 发布

m0_46652894

最新推荐文章于 2024-07-02 10:24:12 发布

阅读量1.3k

点赞数

文章标签： python 多线程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46652894/article/details/106091886

版权

目标：爬取零点看书网

一本小说

1、爬取小说目录地址

爬取小说地址：https://www.lingdiankanshu.co/258400/

查看网页源代码

小说楔子在一个id等于list的div下的dl下第二个dt的同级标签dd的a标签里面

用xpath来获取

 a_list = html.xpath('//div[@id="list"]/dl/dt[2]/following-sibling::dd/a')

following-sibling :选取当前节点之后的所有同级节点

获取章节地址和章节名

pageUrlName_list = []
dit = {
   }
for a in a_list:
    dit['pageUrl'] = url + a.xpath('./@href')[0]
    dit['pageName'] = a.xpath('./text()')[0]
    pageUrlName_list.append(dit.copy())
print(pageUrlName_list)

2、爬取小说内容页

小说内容在一个id等于content的div里面

获取小说内容：

content_list = html.xpath('//div[@id="content"]/text()')
print(content_list)

3、整理爬取的小说

content = '\r\n&#

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
多线程爬取小说

目标：爬取零点看书网一本小说1、爬取小说目录地址爬取小说地址：https://www.lingdiankanshu.co/258400/查看网页源代码小说楔子在一个id等于list的div下的dl下第二个dt的同级标签dd的a标签里面用xpath来获取 a_list = html.xpath('//div[@id="list"]/dl/dt[2]/following-sibling::dd/a')following-sibling :选取当前节点之后的所有同级节点获取章节地址和章节名
复制链接

扫一扫

博客等级

码龄4年

18
原创

13
点赞

43
收藏

9
粉丝

关注

私信

热门文章

分类专栏

笔记 1篇
Linux 2篇
JavaScript 1篇

最新评论

python下载 m3u8 视频
离歌、: 你好，新手爬取ts视频，网上随便找了一个无加密m3u8格式的视频（看了下里面的ts连接并拼接好url，试了下都是可以直接复制手动下载的），但是我按下面代码遍历文本中的url批量下载，在文件夹中看到的下载结果要么是0KB要么就是1KB，每次只有最后一个URl是下载成功的，后面我就单独拿出url指定去把每条下载下来，ts视频就没问题，后面才发现我这个翻车代码竟然一次只能下载一个视频，大神能教教吗，感谢感谢！ [code=python] def read_txt(txt_path,new_path): with open(txt_path, 'r', encoding='utf-8') as f: num = 0 for url in (f.readlines()): num = num + 1 response = requests.get(url, stream=True) with open(os.path.join(new_path, str(num) + '.ts'), 'wb') as ts: print(str(num) + '.ts') print("文件长度为：", len(response.content)) start = time.process_time() for chunk in tqdm(response.iter_content(chunk_size=10240)): ts.write(chunk) # Response.close end = time.process_time() print("下载时间为：", end-start) [/code]
python进度条下载文件
浪里划船: # 判断目录是否存在 if os.path.isdir(path_) and not os.path.exists(path_): print('创建文件夹', path_) os.mkdir(path_)
python进度条下载文件
kanhai0718: 为了拿到Content-Length请求了两次，会比直接下载更慢吧
python进度条下载文件
漠北尘-Gavin: Exception ignored in: <function _ProactorBasePipeTransport.__del__ at 0x0000026712BD8310> Traceback (most recent call last): File "D:\ProgramData\anaconda3\lib\asyncio\proactor_events.py", line 116, in __del__ self.close() File "D:\ProgramData\anaconda3\lib\asyncio\proactor_events.py", line 108, in close self._loop.call_soon(self._call_connection_lost, None) File "D:\ProgramData\anaconda3\lib\asyncio\base_events.py", line 719, in call_soon self._check_closed() File "D:\ProgramData\anaconda3\lib\asyncio\base_events.py", line 508, in _check_closed raise RuntimeError('Event loop is closed') RuntimeError: Event loop is closed, 后面会变慢，而且在程序最后还会抛出这个错误
python进度条下载文件
漠北尘-Gavin: content_length : 388756569 start downloading：_7oWZq_s_Sk.mkv: 96%|########################################################################################3 | 356M/371M [11:11<26:46, 9.60k/s] 其实到后面速度还是会很慢啊，为啥呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。