python怎么提取百度首页链接_教你用python获取百度热榜链接

本文介绍了如何使用Python从百度首页提取关键字并构建百度热榜链接。通过发送HTTP请求,解析HTML内容,提取关键字并进行URL编码,最终形成热榜链接。
摘要由CSDN通过智能技术生成

6488fdc6e2933f98852831bda9a48095.png

目标网址:https://www.baidu.com/

要获取的内容:

136a9f9f18da864680f3d1464d69529e.png

链接分析:

从下图可以看出只需要获取关键字,再构建就可以了。

cf8a2d525dde96879e15a969e69f5ae9.png

完整代码:import requests

import pprint

import re

import urllib.parse

url = 'https://www.baidu.com/'

headers = {

'Host': 'www.baidu.com',

'Referer': 'https://www.baidu.com/',

'User-Agent': 你的User-Agent,

'Cookie': 你的Cookie

}

response = requests.get(url, headers=headers).content.decode('utf-8')

# 获取关键字

pat = '"pure_title": "(.*?)"'

keyword = re.findall(pat, response, re.S)

print(len(keyword))

for hot_word in keyword:

# 汉字不符合url标准,所以这里需要进行url编码

i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')

# url构建

link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'

print(link)

你会发现结果很长:

53b748f9c76b0b7c592bc1c59cf085b9.png

但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。

a8bdbf14d6a8eda857dd175cf749e84a.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值