Python爬虫（二）—— ‘学霸’相关小说

share16

已于 2022-05-14 21:50:23 修改

阅读量561

点赞数 1

分类专栏： # python爬虫 Python 文章标签： python

于 2022-04-02 17:32:19 首次发布

本文链接：https://blog.csdn.net/weixin_42330887/article/details/123923959

版权

Python 同时被 2 个专栏收录

26 篇文章 6 订阅

订阅专栏

python爬虫

3 篇文章 3 订阅

订阅专栏

实战练习2：爬取‘学霸’相关的小说

大家可以关注知乎或微信公众号的‘share16’，我们也会同步更新此文章。

原文链接

上次爬取中国排名前20的大学，我们调用python的requests库和bs4库，内容详见上述链接。
这次，我们调用requests库和re库，爬取小说网站-‘学霸’相关的小说（结果显示：学霸被标红，稍后代码会首先处理这部分）

一、思路

查看robots.txt —— 获取网页内容 —— 解析网页内容 —— 打印网页内容，这个思路大致无变化。 ps：部分网站是不允许爬取数据，但是当我们的爬取行为类似于人的行为(频率低)且对服务器无骚扰时，我们可以简单爬一下～

二、爬取的网站

在这里插入图片描述

三、网页源代码分析

网站链接由四部分组成：(‘http://search~~keyword=’) + (‘学霸’，可定义为变量) + (‘&pageNo=’) + (‘1/2/3’，可用for…in range(1,4)控制)；
分析得知，每一本书的信息都存在 [div class=“search-result-list clearfix”]标签下，以[div class=“h20-blank”][/div]为结尾，如图：

四、代码

4-1. 获取网页内容

import requests 
import re 

def getHTML(url, code='utf-8'):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = code
        return r.text.replace('<font color="RED">','').replace('</font>','').replace('\r','').replace('\n','').replace('\t','')   #搜索的关键词会标红，故此处替换成空值
    except:
        return "爬取失败"

4-2. 提取相关内容，储存到列表中

def fillUnivList(ulist,html):
    book = re.findall(r'<div class="search-result-list clearfix".+<div class="h20-blank"></div>', html) # 获取‘学霸’相关书籍的信息
    #len(book)                           #查看列表中有几个元素。若有一个，对字符串进行操作时，直接用book[0]; 反之，用for...in...
    a = re.split(r'<div class="search-result-list clearfix">', book[0])
    regex1 = re.compile(r'"book_id":"\d{1,20}"}..')             #regex1.split(i) 对每一本书的代码进行分割
    regex2 = re.compile(r'</')
    for i in a:
        if len(i) == 0:     #查看列表中是否有空值
            pass
        else:
            ulist.append([regex2.split(regex1.split(i)[2])[0], regex2.split(regex1.split(i)[3])[0], regex2.split(regex1.split(i)[4])[0],
                        re.search(r'[\u4e00-\u9fa5]{1,5}',regex2.split(regex1.split(i)[4])[2]).group(0), 
                        re.search(r'\d+字',regex2.split(regex1.split(i)[4])[4]).group(0),
                        re.search(r'http://.+html',regex2.split(regex1.split(i)[4])[-1]).group(0)])

4-3. 打印结果(format格式化函数)

def printUnivList(ulist):
    count = 0
    bm = '{0:{7}<4}\t{1:{7}<15}\t{2:{7}<9}\t{3:{7}<4}\t{4:{7}<5}\t{5:{7}<10}\t{6:<40}'
    print(bm.format('序号','名称','作者','类型','状态','字数','链接',chr(12288)))
    for j in ulist:
        count = count + 1 
        print(bm.format(count, j[0], j[1], j[2], j[3], j[4], j[5], chr(12288)))

4-4. 主函数，调用上述几个函数

def main():
    keyword='学霸'
    pags = 3
    start_url = 'http://search～～～keyword=' + keyword
    uinfo = []
    for i in range(1, (pags+1)):
        try:
            url = start_url + '&pageNo=' + str(i)
            html =  getHTML(url, code='utf-8')
            fillUnivList(uinfo,html)
        except:
            continue
    printUnivList(uinfo)
    
main()