小白初入爬虫的实例,爬取小说的某一章

爬取纵横中文网的某篇小说的第一章内容

本来本人在努力做课设,突然打开某一python教程,发现挺有意思的,就跟着试了一试,对代码进行了修改,自己尝试爬取了一章小说!
本人也算是小白,刚入门,!对于代码理解不深入,可以保证的是代码尽量详细和正确!写下自己的心路历程,希望给大家带来帮助。

(个人浅显理解爬虫就是利用程序爬取网络页面的信息,它是根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。比如:https://www.baidu.com/,它就是一个URL。)

工具:
1.python编译器(本人用的visual studio),直接官网安装就行了,很简单
2.需要导入第三方包:numpy,requests,beautifulsoup4, 直接pip Install +安装包名字 就行了

实现:
本文爬取的是国医无双这篇小说的第一章:不做舔狗(hhhh随便找的一章,没想到题目饱含哲理),首先找到它对应的URL,也就是网址链接,http://book.zongheng.com/chapter/963767/60436403.html
如下图标注。 打开网址先放在那里,一会还有用!

代码实现
爬虫大致可以分为两步,首先是获取网页的信息;然后再解析网页信息,选择我们需要的内容。
我们要利用requests这个包去获取网页信息。

#导入requests包
import requests
#下边是我们要爬取的网页url ,就是不做舔狗这章的网址
target= 'http://book.zongheng.com/chapter/963767/60436403.html'
req = requests.get(url=target)   # 请求网页响应
htlm = req.text         #  获得网页的文本信息
print(htlm)

#可以打印出来看看是什么,当然,哈哈哈 我也看不懂,但是可以知道,文字就隐藏在这个页面文本信息(htlm)中 !

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值