零基础Python爬取网页文章和图片详细教学(内附源码、教学视频)

Python爬虫,这个我相信对于很多人来说都不陌生!

今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下!


开发环境: 版本Python3.6.2!(2版本会在20年的时候停止更新库,建议大家现在想学习的话可以学习3版本,但是不建议用3.7,还存在很多库不支持)

编译器: PyCharm!(新手的话pycharm比较适合)

使用的库:

在Python2.x中使用 import.urllib

在Python3.x中使用 importurllib.request

(这是在Python2和3中最直接区别)


OK!进入正题!想要完成到最后一步下载小说,之前我们应该完成什么操作呢?

1.获取主页面源代码

2.获取章节超链接

3.获取章节源代码

4.获取内容

5.下载小说

第一步:定义函数(驼峰命名法,对于刚接触编程的小伙伴来说,养成良好的习惯很重要,还有就是注释)

def getNovelContent():

pass

第二步:获取页面源代码

这里需要注意的点就在于,需要调整获取的编码,不然会形成乱码

html = html.decode('gbk')

将编码格式切换为gbk!!!

第三步:获取章节超链接

需要用到库:正则表达式

import re

第四步:获取章节源代码

同样,跟之前获取主页源代码一样,需要统一格式!

第五步:获取内容

同样使用正则表达式!

第六步:下载小说

代码运行到这里基本上就已经结束了,可以看到小图代码成功运行,正在下载小说

其实这个不仅仅可以爬取免费的小说,收费的按道理也是可以的,但是因为不能侵犯别人的版权等!最好是不要去这么做!


今天就分享到这里了,感谢各位大大关注!转发哦!有什么不对的可以在评论里面直接写出来的!

需要中文软件,案例源码,讲解视频可以加QQ群:838197940!进群备注“掘金资料”!​​​​

转载于:https://juejin.im/post/5b643f0cf265da0f8a14bb6f

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值