Python爬取实战(一):爬取网络小说

———————本文仅用于技术交流,支持正版—————————

爬虫学到了一丢丢,就开始了实战之旅,第一次实战,来点简单的,我们来爬一本小说。
在这里插入图片描述

对网页结构进行分析

网上随便找了本小说,按下我们最热爱的F12,打开开发者工具,按下图所示操作。
在这里插入图片描述
点击开发者工具左上角的小箭头,鼠标指向章节链接的位置,不要点击!开发者工具就会自动显示这一部分所对应的源代码,我们能发现每个章节的链接都是在a标签。我们就可以用正则表达式将每个章节的链接都找出来。

而每一章节的内容是这样的:
在这里插入图片描述
我们再查看网页的源代码,如下图:

在这里插入图片描述
发现不仅有我们所需要的小说内容,还有一些无用的script。之后还需要处理。

获取网页的请求头

在这里插入图片描述
我们以这个章节目录为例,打开开发者工具,点击Network,会出现如图所示界面,若没有,刷新一下即可。然后点击3392/,而我们所需要的在Request Headers里。将该目录下的信息提取,存放到字典中,其中最重要的是User-Agent,仅将其存放到我们的headers字典中也行,其代表了我们的身份信息,浏览器的User-Agent一般都有Mozilla/5.0

headers = {
   
			"user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
		  }

所需要的库文件

  • requests:用于get请求
  • bs4:网页解析
  • re:正则表达式
  • os:系统相关操作
  • time:获取时间
  • random:得到一个随机数
import requests, re, os, time, random
from bs4 import BeautifulSoup

获得章节目录的链接

url = "https://www.boquge.com/book/3392/"
headers = {
   
            "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
          }

try:
    r = requests.get(url, headers=headers)
    #get请求的状态,get失败会报错
    r.raise_for_status()
    #修改get到的编码
    r.encoding = r.apparent_encoding
except:
    print("爬取失败"
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值