原生Python实现网站爬虫

最新推荐文章于 2024-05-12 18:04:14 发布

Mr.XiaoYang

最新推荐文章于 2024-05-12 18:04:14 发布

阅读量705

点赞数

分类专栏： python 进阶之旅文章标签： python爬虫 python网站爬虫

本文链接：https://blog.csdn.net/qq_36718999/article/details/101473074

版权

python 进阶之旅专栏收录该内容

3 篇文章 0 订阅

订阅专栏

查看更多资源

1. 简介：

使用原生Python实现对某视频网站中，视频的作者及播放量两项数据的爬虫获取，并实现数据的排名展示。

2. 编写爬虫的简要逻辑：

- 明确目的

- 找到数据对应的网页

- 分析网页的结构，找到数据所在的标签位置

- 模拟HTTP请求，向服务器发送请求，获取返回的HTML

- 利用正则表达式提取需要的数据

3. 代码：

from urllib import request
import re

class Spider():
    url = 'http://v.qq.com/games/'  # 网站地址
    root_pattern = '<div class="figure_info">([\s\S]*?)</div>'
    inner_pattern = '<span class="info_inner">([\s\S]*?)</span>'

    def __fetch_content(self):  # 1. 请求网址，获取html
        r = request.urlopen(Spider.url)
        htmls = r.read()
        htmls = str(htmls, encoding='utf-8')
        return htmls

    def __analysis(self, htmls):  # 2. 使用正则，截取目标数据
        root_html = re.findall(Spider.root_pattern, htmls)
        anchors = []
        for html in root_html:
            inner = re.findall(Spider.inner_pattern, html)
            if len(inner) == 2:
                anchor = {'name': inner[0], 'number': inner[1]}
                anchors.append(anchor)
        return anchors

    def __refine(self, anchors):  # 3. 除去数据中的空格
        def l(anchor): return {
            'name': anchor['name'].strip(),
            'number': anchor['number'].strip()
        }
        return map(l, anchors)

    def __sort(self, anchors):  # 4. 按照播放量降序
        anchors = sorted(anchors, key=self.__sort_seed, reverse=True)
        return anchors

    def __sort_seed(self, anchor):  # 5. 对排序number数据进行处理
        number = anchor['number']
        if '万' in number:
            number = number[0:-1]
            number = float(number) * 10000
        number = float(number)
        return number

    def __show(self, anchors):  # 6. 输出最终数据
        for rank in range(0, len(anchors)):
            s = 'rank ' + str(rank + 1) + ' : ' + \
                anchors[rank]['name'] + ' - ' + anchors[rank]['number']
            print(s)

    def go(self):  # 7. 执行
        htmls = self.__fetch_content()
        anchors = self.__analysis(htmls)
        anchors = list(self.__refine(anchors))
        anchors = self.__sort(anchors)
        self.__show(anchors)

spider = Spider()  # 8. 实例化
spider.go() # 9. 执行

4. 爬虫数据：

rank 1 : TGL-王者荣耀团 - 74.6万
rank 2 : 陀螺电竞 - 7.8万
rank 3 : Lin小北 - 7.8万
rank 4 : 小棉花 - 7.4万
rank 5 : 小数点解说 - 2.1万
rank 6 : Miss韩懿莹 - 1.3万
rank 7 : 兔玩LOL - 1.3万
rank 8 : 秀色解说 - 1.2万
rank 9 : 红尘君 - 1.0万
rank 10 : LOL蓝少解说 - 8089
rank 11 : LOL蓝少解说 - 7808
rank 12 : 爱玩君与游戏娘 - 7520
rank 13 : 小数点解说 - 6923
rank 14 : 小伶铛巧虎 - 6570
rank 15 : 辛巴达解说 - 5445
rank 16 : 胡撸努努 - 4468
rank 17 : 解说牛炮狗 - 3809
rank 18 : 解说梦演 - 3653
rank 19 : SilenceOB - 3649
rank 20 : 解说牛炮狗 - 3634
rank 21 : 小数点解说 - 3396
rank 22 : 小棉花 - 3049
rank 23 : 企鹅电竞小浪浪 - 2819
rank 24 : 江湖人称一条柴 - 2324
rank 25 : 蜗牛大叔游戏解说 - 2246
rank 26 : 缘生解说 - 1323
rank 27 : 缘生解说 - 989
rank 28 : 呆呆兽SAMA - 728
rank 29 : 流行游戏解说 - 554
rank 30 : 柚子互娱 - 472
rank 31 : 中国BOY超级大猩猩 - 284