第一篇爬虫——爬取一本小说

目录

一、爬取第一章​

1.引入requests 和 parsel库

2.代码实现步骤: 

(1).发送请求

(2).获取数据

(3).解析数据

提取章节名 

使用 css 获取小说标题,粘贴:

使用 xpath 也可以获取小说标题

提取小说内容

​(4).保存数据

二、爬取整本小说


一、爬取第一章​

1.引入requests 和 parsel库

import requests
import parsel

如果requests 和 parsel报错,单击requests再按Alt+Enter,Install package requests。

单击parsel再按Alt+Enter,Install package parsel。

依然报错可以使用pip命令安装requests和parsel模块

pip install requests

pip install parsel

可以查看Python中安装了哪些第三方库

pip list

2.代码实现步骤: 


(1).发送请求,对于刚刚分析得到的url地址发送请求
(2).获取数据,获收服务器返回的response响应数据
(3).解析数据,提取我们想要的数据内容小说章节名字以及小说内容
(4).保存数据,把提取出来的内容保存到本地

(1).发送请求

小说第一章导航栏地址:

用response变量接收返回的内容

url = 'http://www.ibiquge.cc/19666/5687111.html'
response= requests.get(url) # <Response[200]>返回response响应对象,200表示请求成功
print(response)

(2).获取数据

print(response.text)

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值