零基础Python爬取网页文章和图片详细教学（内附源码、教学视频）

最新推荐文章于 2024-04-27 16:08:33 发布

weixin_34195142

最新推荐文章于 2024-04-27 16:08:33 发布

阅读量293

点赞数

文章标签： python

原文链接：https://juejin.im/post/5b643f0cf265da0f8a14bb6f

版权

Python爬虫，这个我相信对于很多人来说都不陌生！

今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下！

开发环境： 版本Python3.6.2！（2版本会在20年的时候停止更新库，建议大家现在想学习的话可以学习3版本，但是不建议用3.7，还存在很多库不支持）

编译器： PyCharm！（新手的话pycharm比较适合）

使用的库：

在Python2.x中使用 import.urllib

在Python3.x中使用 importurllib.request

（这是在Python2和3中最直接区别）

OK！进入正题！想要完成到最后一步下载小说，之前我们应该完成什么操作呢？

1.获取主页面源代码

2.获取章节超链接

3.获取章节源代码

4.获取内容

5.下载小说

第一步：定义函数（驼峰命名法，对于刚接触编程的小伙伴来说，养成良好的习惯很重要，还有就是注释）

def getNovelContent():

pass

第二步：获取页面源代码

这里需要注意的点就在于，需要调整获取的编码，不然会形成乱码

html = html.decode('gbk')

将编码格式切换为gbk！！！

第三步：获取章节超链接

需要用到库：正则表达式

import re

第四步：获取章节源代码

同样，跟之前获取主页源代码一样，需要统一格式！

第五步：获取内容

同样使用正则表达式！

第六步：下载小说

代码运行到这里基本上就已经结束了，可以看到小图代码成功运行，正在下载小说

其实这个不仅仅可以爬取免费的小说，收费的按道理也是可以的，但是因为不能侵犯别人的版权等！最好是不要去这么做！

今天就分享到这里了，感谢各位大大关注！转发哦！有什么不对的可以在评论里面直接写出来的！

需要中文软件，案例源码，讲解视频可以加QQ群：838197940！进群备注“掘金资料”！

转载于:https://juejin.im/post/5b643f0cf265da0f8a14bb6f

weixin_34195142

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
零基础Python爬取网页文章和图片详细教学（内附源码、教学视频）

Python爬虫，这个我相信对于很多人来说都不陌生！今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下！开发环境：版本Python3.6.2！（2版本会在20年的时候停止更新库，建议大家现在想学习的话可以学习3版本，但是不建议用3.7，还存在很多库不支持）编译器： PyCharm！（新手的话pycharm比较适合）使用的库：在Python2....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。