Ajax结果提取(page更新为使用since_id的解决方法)


这里仍然以微博为例,接下来用Python来模拟这些Ajax请求,把 许嵩发过爬取下来。

1.分析请求

打开Ajax的XHR过滤器,然后一直滑动页面以加载新的内容。可以看到,会不断有Ajax请求发出。
选定其中一个请求,分析它的参数信息。点击该请求,进入详情页面,如图:
在这里插入图片描述
可以发现,这是一个GET类型的请求,请求链接为https://m.weibo.cn/api/container/getIndex?type=uid&value=1251000504&containerid=1005051251000504。请求参数有3个:type、value、containerid,但是点开后面的请求后发现还有第四个参数since_id,如下图。(在就以前的版本中,这个参数其实是page),我们发现,他们的前三个type、value和containerd始终如一。type始终为uid,value就是页面链接中的数字,其实就是用户id。另外,containerid也没变。就是107603拼接用户id。最后参数since_id是用来控制分页的,之前用的是page,page=1就是第一页以此类推,但是since_id就需要重新处理,我们下面再来分析。
在这里插入图片描述

2.分析响应

随后,观察这个请求的相应内容,如图:
在这里插入图片描述
这个内容是JSON格式的,浏览器开发者工具自动做了解析以方便我们查看。可以看到,最关键的两部分信息就是cardlistInfo和cards:前者包含比较重要的信息total,观察后可以发现这是微博的总数量,我们可以根据这个数字来估算分页数,另外这部分还包含了一个since_id,观察发现它是下一个请求的since_id。而第一个请求的since_id是为空的,那么在没办法用page分页的情况下,我们可以从上个连接的返回信息中获取since_id,以此来获取下个链接;后者则是一个列表,它包含10个元素,展开其中一个看一下,如图所示:
在这里插入图片描述
可以发现,这个元素有一个比较重要的字段mblog。展开它,可以发现它包含的正是微博的一些信息,比如attitudes_count(赞数目)、comments_count(评论数目)、reposts_count(转发数目)、created_at(发布时间)、text(微博正文)等,而且它们都是一个格式化的内容。这样我们请求一个接口,就可以得到10条微博,而且请求时只需要改变page参数即可。
这样的话,我们只需要一个简单的循环,就可以获取所有微博了。

3.实战演练

这里我们用程序模拟这些Ajax请求,将许嵩的前十页微博全部爬取下来。
首先,定义一个方法来获取每次请求的结果。在请求时,since_id是一个可变参数,所以我们将它作为方法的参数传递进来,相关代码如下:

from urllib.parse import urlencode
import requests
base_url = 'https://m.weibo.cn/api/container/getIndex?'

headers = {
    'Host':'m.weibo.cn',
    'Referer':'https://m.weibo.cn/u/1251000504',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
    'X-Requested-With':'XMLHttpRequest',
}

def get_page(since_id=None):
    params={
        'type':'uid',
        'value':'1251000504',
        'containerid':'1076031251000504',
        'since_id':since_id
    }
    url = base_url+urlencode(params)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            json = response.json()
            items = json.get('data').get('cardlistInfo')
            next_since_id = items['since_id']
            return (json, next_since_id)
    except requests.ConnectionError as e:
        print('Error',e.args)

首先,这里定义了base_url来表示请求的URL的前半部分。接下来,构造参数字典,其中type、value和containerid是固定参数,since_id是可变参数。接下来,调用urlencode()方法将参数转化为URL的GET请求参数,即类似于type=uid&value=1251000504&containerid=1076031251000504&since_id=466466这样的形式。随后,base_url与参数拼合形成一个新的URL。接着,我们用requests请求这个链接,加入headers参数。然后判断响应的状态码,如果是200,则直接调用json()方法将内容解析为JSON返回,否则不返回任何信息,并且将下个列表的since_id保存下来。如果出现异常则捕获并输出异常信息。
随后,我们需要定义一个解析方法,用来从结果中提取想要的信息,比如这次想保存微博的id、正文、赞数、评论数和转发数这几个内容,那么可以先遍历cards,然后获取mblog中的各个信息,赋值为一个新的字典返回即可,这里遇到了一个小问题,就是在微博中没有正文或者是只有图片的这种特殊情况,其实会报错,我们可以将其做异常处理,忽略掉而进行下一次循环

from pyquery import PyQuery as pq

def parse_page(json):
    if json:
        items = json.get('data').get('cards')
        for item in items:
            item = item.get('mblog')
            try:
                if pq(item.get('text')).text() == None:
                    continue
            except:
                continue
            weibo = {}
            weibo['id'] = item.get('id')
            weibo['text'] = pq(item.get('text')).text()
            weibo['attitudes'] = item.get('attitudes_count')
            weibo['comments'] = item.get('comments_count')
            weibo['reposts'] = item.get('reposts_count')
            yield  weibo

这里我们借助pyquery将正文中的HTML标签去掉。
最后,遍历一下,一共10页,将提取到的结果打印输出即可:

if __name__=='__main__':
    for page in range(42):
        if page == 0:
            print("第{}页".format(page + 1))
            tuple_since_id = get_page()
            results = parse_page(tuple_since_id[0])
            for result in results:
                print(result)
        else:
            print("第{}页".format(page + 1))
            tuple_since_id = get_page(tuple_since_id[1])
            results = parse_page(tuple_since_id[0])
            for result in results:
                print(result)

在这里插入图片描述
另外,我们还可以加一个方法将结果保存到MongoDB数据库:

from pymongo import MongoClient

client = MongoClient()
db = client['weibo']
collection = db['weibo']
def save_to_mongo(result):
    if collection.insert(result):
        print('Saved to Mongo')

这样所有的功能都是实现完成了。运行程序后,输出结果如下:
在这里插入图片描述
查看一下MongoDB,相应的数据也被保存到MongoDB,如图:
在这里插入图片描述
这样我们就顺利通过分析Ajax并编写爬虫爬取下来微博列表。最后,给出代码地址:https://github.com/jiangwenvae/Spider/blob/main/spider/AjaxWeiBo.py

参考文献

[1].Python3网络爬虫开发实战.崔庆才.——6.3Ajax数据爬取
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
0. 下载: 本程序可自由修改, 自由分发, 可在http://download.csdn.net/user/lgg201下载 1. 分页的需求 信息的操纵和检索是当下互联网和企业信息系统承担的主要责任. 信息检索是从大量的数据中找到符合条件的数据以用户界面展现给用户. 符合条件的数据通常会有成千上万条, 而用户的单次信息接受量是很小的, 因此, 如果一次将所有符合用户条件的数据展现给用户, 对于多数场景, 其中大部分数据都是冗余的. 信息检索完成后, 是需要经过传输(从存储介质到应用程序)和相关计算(业务逻辑)的, 因此, 我们需要一种分段的信息检索机制来降低这种冗余. 分页应运而生. 2. 分页的发展 基本的分页程序, 将数据按照每页记录数(page_size)将数据分为ceil(total_record / page_size)页, 第一次为用户展现第一段的数据, 后续的交互过程中, 用户可以选择到某一页对数据进行审阅. 后来, 主要是在微博应用出现后, 由于其信息变化很快, 而其特性为基于时间线增加数据, 这样, 基本的分页程序不能再满足需求了: a) 当获取下一页时, 数据集可能已经发生了很多变化, 翻页随时都可能导致数据重复或跳跃; b) 此类应用采用很多采用一屏展示多段数据的用户界面, 更加加重了数据重复/跳跃对用户体验的影响. 因此, 程序员们开始使用since_id的方式, 将下一次获取数据的点记录下来, 已减轻上述弊端. 在同一个用户界面, 通过用户阅读行为自动获取下一段/上一段数据的确比点击"下一页"按钮的用户体验要好, 但同样有弊端: a) 当用户已经到第100页时, 他要回到刚才感兴趣的第5页的信息时, 并不是很容易, 这其实是一条设计应用的规则, 我们不能让用户界面的单页屏数过多, 这样会降低用户体验; b) 单从数据角度看, 我们多次读取之间的间隔时间足够让数据发生一些变化, 在一次只展示一屏时, 我们很难发现这些问题(因此不影响用户体验), 然而当一页展示100屏数据时, 这种变化会被放大, 此时, 数据重复/跳跃的问题就会再次出现; c) 从程序的角度看, 将大量的数据放置在同一个用户界面, 必然导致用户界面的程序逻辑受到影响. 基于以上考虑, 目前应用已经开始对分页进行修正, 将一页所展示的屏数进行的限制, 同时加入了页码的概念, 另外也结合since_id的方式, 以达到用户体验最优, 同时保证数据逻辑的正确性(降低误差). 3. 分页的讨论 感谢xp/jp/zq/lw四位同事的讨论, 基于多次讨论, 我们分析了分页程序的本质. 主要的结论点如下: 1) 分页的目的是为了分段读取数据 2) 能够进行分页的数据一定是有序的, 哪怕他是依赖数据库存储顺序. (这一点换一种说法更容易理解: 当数据集没有发生变化时, 同样的输入, 多次执行, 得到的输出顺序保持不变) 3) 所有的分段式数据读取, 要完全保证数据集的一致性, 必须保证数据集顺序的一致性, 即快照 4) 传统的分页, 分段式分页(每页内分为多段)归根结底是对数据集做一次切割, 映射到mysql的sql语法上, 就是根据输入求得limit子句, 适用场景为数据集变化频率低 5) since_id类分页, 其本质是假定已有数据无变化, 将数据集的某一个点的id(在数据集中可以绝对定位该数据的相关字段)提供给用户侧, 每次携带该id读取相应位置的数据, 以此模拟快照, 使用场景为数据集历史数据变化频率低, 新增数据频繁 6) 如果存在一个快照系统, 能够为每一个会话发起时的数据集产生一份快照数据, 那么一切问题都迎刃而解 7) 在没有快照系统的时候, 我们可以用since_id的方式限定数据范围, 模拟快照系统, 可以解决大多数问题 8) 要使用since_id方式模拟快照, 其数据集排序规则必须有能够唯一标识其每一个数据的字段(可能是复合的) 4. 实现思路 1) 提供SQL的转换函数 2) 支持分段式分页(page, page_ping, ping, ping_size), 传统分页(page, page_size), 原始分页(offset-count), since_id分页(prev_id, next_id) 3) 分段式分页, 传统分页, 原始分页在底层均转换为原始分页处理 5. 实现定义 ping_to_offset 输入: page #请求页码, 范围: [1, total_page], 超过范围以边界计, 即0修正为1, total_page + 1修正为total_page ping #请求段号, 范围: [1, page_ping], 超过范围以边界计, 即0修正为1, page_ping + 1修正为page_ping page_ping #每页分段数, 范围: [1, 无穷] count #要获取的记录数, 当前应用场景含义为: 每段记录数, 范围: [1, 无穷] total_record #总记录数, 范围: [1, 无穷] 输出: offset #偏移量 count #读取条数 offset_to_ping 输入: offset #偏移量(必须按照count对齐, 即可以被count整除), 范围: [0, 无穷] page_ping #每页分段数, 范围: [1, 无穷] count #读取条数, 范围: [1, 无穷] 输出: page #请求页码 ping #请求段号 page_ping #每页分段数 count #要获取的记录数, 当前应用场景含义为: 每段记录数 page_to_offset 输入: page #请求页码, 范围: [1, total_page], 超过范围以边界计, 即0修正为1, total_page + 1修正为total_page total_record #总记录数, 范围: [1, 无穷] count #要获取的记录数, 当前应用场景含义为: 每页条数, 范围: [1, 无穷] 输出: offset #偏移量 count #读取条数 offset_to_page 输入: offset #偏移量(必须按照count对齐, 即可以被count整除), 范围: [0, 无穷] count #读取条数, 范围: [1, 无穷] 输出: page #请求页码 count #要获取的记录数, 当前应用场景含义为: 每页条数 sql_parser #将符合mysql语法规范的SQL语句解析得到各个组件 输入: sql #要解析的sql语句 输出: sql_components #SQL解析后的字段 sql_restore #将SQL语句组件集转换为SQL语句 输入: sql_components #要还原的SQL语句组件集 输出: sql #还原后的SQL语句 sql_to_count #将符合mysql语法规范的SELECT语句转换为获取计数 输入: sql_components #要转换为查询计数的SQL语句组件集 alias #计数字段的别名 输出: sql_components #转换后的查询计数SQL语句组件集 sql_add_offset 输入: sql_components #要增加偏移的SQL语句组件集, 不允许存在LIMIT组件 offset #偏移量(必须按照count对齐, 即可以被count整除), 范围: [0, 无穷] count #要获取的记录数, 范围: [1, 无穷] 输出: sql_components #已增加LIMIT组件的SQL语句组件集 sql_add_since #增加since_id式的范围 输入: sql_components #要增加范围限定的SQL语句组件集 prev_id #标记上一次请求得到的数据左边界 next_id #标记上一次请求得到的数据右边界 输出: sql_components #增加since_id模拟快照的范围限定后的SQL语句组件集 datas_boundary #获取当前数据集的边界 输入: sql_components #要读取的数据集对应的SQL语句组件集 datas #结果数据集 输出: prev_id #当前数据集左边界 next_id #当前数据集右边界 mysql_paginate_query #执行分页支持的SQL语句 输入: sql #要执行的业务SQL语句 offset #偏移量(必须按照count对齐, 即可以被count整除), 范围: [0, 无穷] count #读取条数, 范围: [1, 无穷] prev_id #标记上一次请求得到的数据左边界 next_id #标记上一次请求得到的数据右边界 输出: datas #查询结果集 offset #偏移量 count #读取条数 prev_id #当前数据集的左边界 next_id #当前数据集的右边界 6. 实现的执行流程 分段式分页应用(page, ping, page_ping, count): total_record = sql_to_count(sql); (offset, count) = ping_to_offset(page, ping, page_ping, count, total_record) (datas, offset, count) = mysql_paginate_query(sql, offset, count, NULL, NULL); (page, ping, page_ping, total_record, count) = offset_to_ping(offset, page_ping, count, total_record); return (datas, page, ping, page_ping, total_record, count); 传统分页应用(page, count): total_record = sql_to_count(sql); (offset, count) = page_to_offset(page, count, total_record) (datas, offset, count) = mysql_paginate_query(sql, offset, count, NULL, NULL); (page, total_record, count) = offset_to_page(offset, count, total_record); return (datas, page, total_record, count); since_id分页应用(count, prev_id, next_id): total_record = sql_to_count(sql); (datas, offset, count, prev_id, next_id) = mysql_paginate_query(sql, NULL, count, prev_id, next_id); return (count, prev_id, next_id); 复合型分段式分页应用(page, ping, page_ping, count, prev_id, next_id): total_record = sql_to_count(sql); (offset, count) = ping_to_offset(page, ping, page_ping, count, total_record) (datas, offset, count, prev_id, next_id) = mysql_paginate_query(sql, offset, count, prev_id, next_id); (page, ping, page_ping, total_record, count) = offset_to_ping(offset, page_ping, count, total_record); return (datas, page, ping, page_ping, total_record, count, prev_id, next_id); 复合型传统分页应用(page, count, prev_id, next_id): total_record = sql_to_count(sql); (offset, count) = page_to_offset(page, count, total_record) (datas, offset, count, prev_id, next_id) = mysql_paginate_query(sql, offset, count, prev_id, next_id); (page, total_record, count) = offset_to_page(offset, count, total_record); return (datas, page, total_record, count, prev_id, next_id); mysql_paginate_query(sql, offset, count, prev_id, next_id) need_offset = is_null(offset); need_since = is_null(prev_id) || is_null(next_id); sql_components = sql_parser(sql); if ( need_offset ) : sql_components = sql_add_offset(sql_components, offset, count); endif if ( need_since ) : sql_components = sql_add_since(sql_components, prev_id, next_id); endif sql = sql_restore(sql_components); datas = mysql_execute(sql); (prev_id, next_id) = datas_boundary(sql_components, datas); ret = (datas); if ( need_offset ) : append(ret, offset, count); endif if ( need_since ) : append(ret, prev_id, next_id); endif return (ret); 7. 测试点 1) 传统分页 2) 分段分页 3) 原始分页 4) since_id分页 5) 复合型传统分页 6) 复合型分段分页 7) 复合型原始分页 8. 测试数据构建 DROP DATABASE IF EXISTS `paginate_test`; CREATE DATABASE IF NOT EXISTS `paginate_test`; USE `paginate_test`; DROP TABLE IF EXISTS `feed`; CREATE TABLE IF NOT EXISTS `feed` ( `feed_id` INT NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '微博ID', `ctime` INT NOT NULL COMMENT '微博创建时间', `content` CHAR(20) NOT NULL DEFAULT '' COMMENT '微博内容', `transpond_count` INT NOT NULL DEFAULT 0 COMMENT '微博转发数' ) COMMENT '微博表'; DROP TABLE IF EXISTS `comment`; CREATE TABLE IF NOT EXISTS `comment` ( `comment_id` INT NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '评论ID', `content` CHAR(20) NOT NULL DEFAULT '' COMMENT '评论内容', `feed_id` INT NOT NUL COMMENT '被评论微博ID' ) COMMENT '评论表'; DROP TABLE IF EXISTS `hot`; CREATE TABLE IF NOT EXISTS `hot` ( `feed_id` INT NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '微博ID', `hot` INT NOT NULL DEFAULT 0 COMMENT '微博热度' ) COMMENT '热点微博表'; 9. 测试用例: 1) 搜索最热微博(SELECT f.feed_id, f.content, h.hot FROM feed AS f JOIN hot AS h ON f.feed_id = h.feed_id ORDER BY hhot DESC, f.feed_id DESC) 2) 搜索热评微博(SELECT f.feed_id, f.content, COUNT(c.*) AS count FROM feed AS f JOIN comment AS c ON f.feed_id = c.feed_id GROUP BY c.feed_id ORDER BY count DESC, f.feed_id DESC) 3) 搜索热转微博(SELECT feed_id, content, transpond_count FROM feed ORDER BY transpond_count DESC, feed_id DESC) 4) 上面3种场景均测试7个测试点 10. 文件列表 readme.txt 当前您正在阅读的开发文档 page.lib.php 分页程序库 test_base.php 单元测试基础函数 test_convert.php 不同分页之间的转换单元测试 test_parse.php SQL语句解析测试 test_page.php 分页测试

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

降温vae+

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值