百度搜索引擎结果网址参数 搜索框提示次数(rsv_sug1)

常在搜索框提示中和键盘重复速度 rsv_sug3 同时出现的另一个百度参数是搜索框提示次数 rsv_sug1。

[b]百度搜索结果网址参数 搜索框提示次数(rsv_sug1)[/b]
名称 [b]rsv_sug1[/b]
含义 搜索框提示次数
参数值
[b]小等于键盘重复速度参数值[/b]

每当键盘重复速度慢过搜索框提示延迟,就有可能显示搜索框提示,这时 rsv_sug1=1,之后只需输入/修改字符串的速率长于搜索框提示,搜索框提示次数便会增加。
即使是重复的提示或因种种原因隐藏了搜索框提示,也会记录 rsv_sug1。
搜索框提示次数越多,说明提示搜索词不吸引用户,也许是用户在搜索框中输入/修改速度较为缓慢。

曾被网上的几篇文章误导过,他们仅取几个链接就开始分析,认为 rsv_sug1 是统计字数一类的参数,而鄙人统计了网站后台近千条百度搜索结果网址,才得出了较为妥帖的结论。
只有勤奋才能获得知识,不劳而获是不会有的。

[PHP]

$rsv_sug1=$_POST['rsv_sug1'];
if(preg_match("/(rsv_sug1=)([^&]+)/i",$baidu,$rsv_sug1))
echo"<tr class=\"center\"><td>搜索框提示次数</td>"."<td>出现过".$rsv_sug3[2]."次搜索框提示</td></tr>";

[/PHP]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您的代码中有一些问题需要修改: 1. 在 `baidu` 函数中,递归调用 `baidu` 函数时,应该传入 `page` 参数而不是 `i+1`。 2. 在正则表达式中,如果要匹配 `'` 或 `"` 等特殊字符,需要在前面加上反斜线 `\` 进行转义。 3. 在正则表达式中,应该使用非贪婪模式 `.*?` 代替贪婪模式 `.*`,以避免匹配到多余的内容。 下面是修改后的代码: ```python import requests import re headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36' } def baidu(page): num = (page - 1) * 10 url = 'http://www.baidu.com/s?ie=utf-8&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&cl=2&wd=meizu&tn=news&rsv_bp=1&rsv_sug3=16&rsv_sug1=6&rsv_sug7=100&oq=&rsv_btype=t&f=8&inputT=5752&rsv_sug4=6599&x_bfe_rqs=032000000000000000004800000000000000000000000008&x_bfe_tjscore=0.080000&tngroupname=organic_news&newVideo=12&goods_entry_switch=1&pn=' + str(num) res = requests.get(url, headers=headers).text # 在这里可以对 res 进行数据解析和处理 # ... if page < 5: baidu(page+1) print("第"+str(page)+"页爬取成功") p_title = '}"><!--s-text-->(.*?)<!--/s-text--></a></h3><div class=' #提取标题 title = re.findall(p_title, res, re.S) print(title) p_info = 'c-gap-right-xsmall" aria-label="(.*?)">' #提取时间 info = re.findall(p_info, res, re.S) print(info) p_href = '<a class="source-link_Ft1ov" href="(.*?)"' #提取网址 href = re.findall(p_href, res, re.S) print(href) p_source = '<span class="c-color-gray" aria-label="(.*?)">' #提取来源 source = re.findall(p_source, res, re.S) print(source) for i in range(len(title)): title[i] = re.sub('<.*?>', '', title[i]) #去掉 print(str(i+1) + "." + title[i] + ' (' + info[i] + " - " + source[i] + ')') print(" ", href[i]) ``` 需要注意的是,百度搜索结果的页面结构经常会发生变化,如果您的代码无法正常提取数据,可能需要根据实际情况进行调整。另外,爬虫程序需要遵守网站的爬虫规则,不得过度访问和请求网站,避免对网站造成负担和影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值