原生Python实现网站爬虫

查看更多资源 

1. 简介 :

使用原生Python实现对某视频网站中,视频的作者及播放量两项数据的爬虫获取,并实现数据的排名展示。

2. 编写爬虫的简要逻辑 :

- 明确目的

- 找到数据对应的网页

- 分析网页的结构,找到数据所在的标签位置

- 模拟HTTP请求,向服务器发送请求,获取返回的HTML

- 利用正则表达式提取需要的数据

3. 代码 :

from urllib import request
import re

class Spider():
    url = 'http://v.qq.com/games/'  # 网站地址
    root_pattern = '<div class="figure_info">([\s\S]*?)</div>'
    inner_pattern = '<span class="info_inner">([\s\S]*?)</span>'

    def __fetch_content(self):  # 1. 请求网址,获取html
        r = request.urlopen(Spider.url)
        htmls = r.read()
        htmls = str(htmls, encoding='utf-8')
        return htmls

    def __analysis(self, htmls):  # 2. 使用正则,截取目标数据
        root_html = re.findall(Spider.root_pattern, htmls)
        anchors = []
        for html in root_html:
            inner = re.findall(Spider.inner_pattern, html)
            if len(inner) == 2:
                anchor = {'name': inner[0], 'number': inner[1]}
                anchors.append(anchor)
        return anchors

    def __refine(self, anchors):  # 3. 除去数据中的空格
        def l(anchor): return {
            'name': anchor['name'].strip(),
            'number': anchor['number'].strip()
        }
        return map(l, anchors)

    def __sort(self, anchors):  # 4. 按照播放量降序
        anchors = sorted(anchors, key=self.__sort_seed, reverse=True)
        return anchors

    def __sort_seed(self, anchor):  # 5. 对排序number数据进行处理
        number = anchor['number']
        if '万' in number:
            number = number[0:-1]
            number = float(number) * 10000
        number = float(number)
        return number

    def __show(self, anchors):  # 6. 输出最终数据
        for rank in range(0, len(anchors)):
            s = 'rank ' + str(rank + 1) + ' : ' + \
                anchors[rank]['name'] + ' - ' + anchors[rank]['number']
            print(s)

    def go(self):  # 7. 执行
        htmls = self.__fetch_content()
        anchors = self.__analysis(htmls)
        anchors = list(self.__refine(anchors))
        anchors = self.__sort(anchors)
        self.__show(anchors)

spider = Spider()  # 8. 实例化
spider.go() # 9. 执行

 4.  爬虫数据 :

rank 1 : TGL-王者荣耀团 - 74.6万
rank 2 : 陀螺电竞 - 7.8万
rank 3 : Lin小北 - 7.8万
rank 4 : 小棉花 - 7.4万
rank 5 : 小数点解说 - 2.1万
rank 6 : Miss韩懿莹 - 1.3万
rank 7 : 兔玩LOL - 1.3万
rank 8 : 秀色解说 - 1.2万
rank 9 : 红尘君 - 1.0万
rank 10 : LOL蓝少解说 - 8089
rank 11 : LOL蓝少解说 - 7808
rank 12 : 爱玩君与游戏娘 - 7520
rank 13 : 小数点解说 - 6923
rank 14 : 小伶铛巧虎 - 6570
rank 15 : 辛巴达解说 - 5445
rank 16 : 胡撸努努 - 4468
rank 17 : 解说牛炮狗 - 3809
rank 18 : 解说梦演 - 3653
rank 19 : SilenceOB - 3649
rank 20 : 解说牛炮狗 - 3634
rank 21 : 小数点解说 - 3396
rank 22 : 小棉花 - 3049
rank 23 : 企鹅电竞小浪浪 - 2819
rank 24 : 江湖人称一条柴 - 2324
rank 25 : 蜗牛大叔游戏解说 - 2246
rank 26 : 缘生解说 - 1323
rank 27 : 缘生解说 - 989
rank 28 : 呆呆兽SAMA - 728
rank 29 : 流行游戏解说 - 554
rank 30 : 柚子互娱 - 472
rank 31 : 中国BOY超级大猩猩 - 284

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值