Python爬虫(二)—— ‘学霸’相关小说

实战练习2:爬取‘学霸’相关的小说

大家可以关注知乎或微信公众号的‘share16’,我们也会同步更新此文章。

原文链接

   上次爬取中国排名前20的大学,我们调用python的requests库和bs4库,内容详见上述链接。
   这次,我们调用requests库和re库,爬取小说网站-‘学霸’相关的小说(结果显示:学霸被标红,稍后代码会首先处理这部分)

一、思路

   查看robots.txt —— 获取网页内容 —— 解析网页内容 —— 打印网页内容,这个思路大致无变化。 ps:部分网站是不允许爬取数据,但是当我们的爬取行为类似于人的行为(频率低)且对服务器无骚扰时,我们可以简单爬一下~

二、爬取的网站

在这里插入图片描述

三、网页源代码分析

  1. 网站链接由四部分组成:(‘http://search~~keyword=’) + (‘学霸’,可定义为变量) + (‘&pageNo=’) + (‘1/2/3’,可用for…in range(1,4)控制);
  2. 分析得知,每一本书的信息都存在 [div class=“search-result-list clearfix”]标签下,以[div class=“h20-blank”][/div]为结尾,如图:
    在这里插入图片描述

四、代码

4-1. 获取网页内容

import requests 
import re 

def getHTML(url, code='utf-8'):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = code
        return r.text.replace('<font color="RED">','').replace('</font>','').replace('\r','').replace('\n','').replace('\t','')   #搜索的关键词会标红,故此处替换成空值
    except:
        return "爬取失败"

4-2. 提取相关内容,储存到列表中

def fillUnivList(ulist,html):
    book = re.findall(r'<div class="search-result-list clearfix".+<div class="h20-blank"></div>', html) # 获取‘学霸’相关书籍的信息
    #len(book)                           #查看列表中有几个元素。若有一个,对字符串进行操作时,直接用book[0]; 反之,用for...in...
    a = re.split(r'<div class="search-result-list clearfix">', book[0])
    regex1 = re.compile(r'"book_id":"\d{1,20}"}..')             #regex1.split(i) 对每一本书的代码进行分割
    regex2 = re.compile(r'</')
    for i in a:
        if len(i) == 0:     #查看列表中是否有空值
            pass
        else:
            ulist.append([regex2.split(regex1.split(i)[2])[0], regex2.split(regex1.split(i)[3])[0], regex2.split(regex1.split(i)[4])[0],
                        re.search(r'[\u4e00-\u9fa5]{1,5}',regex2.split(regex1.split(i)[4])[2]).group(0), 
                        re.search(r'\d+字',regex2.split(regex1.split(i)[4])[4]).group(0),
                        re.search(r'http://.+html',regex2.split(regex1.split(i)[4])[-1]).group(0)])
                        

4-3. 打印结果(format格式化函数)

def printUnivList(ulist):
    count = 0
    bm = '{0:{7}<4}\t{1:{7}<15}\t{2:{7}<9}\t{3:{7}<4}\t{4:{7}<5}\t{5:{7}<10}\t{6:<40}'
    print(bm.format('序号','名称','作者','类型','状态','字数','链接',chr(12288)))
    for j in ulist:
        count = count + 1 
        print(bm.format(count, j[0], j[1], j[2], j[3], j[4], j[5], chr(12288)))
        

4-4. 主函数,调用上述几个函数

def main():
    keyword='学霸'
    pags = 3
    start_url = 'http://search~~~keyword=' + keyword
    uinfo = []
    for i in range(1, (pags+1)):
        try:
            url = start_url + '&pageNo=' + str(i)
            html =  getHTML(url, code='utf-8')
            fillUnivList(uinfo,html)
        except:
            continue
    printUnivList(uinfo)
    
main()

4-5. 运行结果

在这里插入图片描述
谢谢大家🌹

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值