本教程将介绍如何使用Python编写爬虫代码来获取百度热搜榜的实时数据。我们将使用requests
模块发送HTTP请求,并使用BeautifulSoup
模块解析HTML内容。
步骤 1: 导入所需模块和库
首先,我们需要导入requests
模块和BeautifulSoup
模块。这些模块将帮助我们发送HTTP请求和解析HTML内容。
import requests # 导入requests模块,用于发送HTTP请求
from bs4 import BeautifulSoup # 导入BeautifulSoup模块,用于解析HTML
步骤 2: 设置目标网页URL和请求头
在这一步中,我们将定义要爬取的目标网页的URL,并设置请求头以模拟浏览器访问。
url = "https://top.baidu.com/board?tab=realtime" # 目标网页的URL
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"
} # 请求头,用于伪装成浏览器进行访问
步骤 3: 发送HTTP请求并获取响应内容
接下来,我们将使用requests
模块发送GET请求,并获取响应对象。
res = requests.get(url, headers=headers) # 发送GET请求,并获取响应对象
html = res.text # 将响应内容转换为字符串形式
步骤 4: 解析HTML内容
我们使用BeautifulSoup
模块来解析HTML内容,并使用CSS选择器获取热搜词和热搜指数的元素列表。
soup = BeautifulSoup(html, features="html.parser") # 使用BeautifulSoup解析网页内容,指定解析器为html.parser
kw = soup.select("div .c-single-text-ellipsis") # 使用CSS选择器获取热搜词的元素列表
count = soup.select("div .hot-index_1Bl1a") # 使用CSS选择器获取热搜指数的元素列表
步骤 5: 提取热搜词和热搜指数
我们将创建一个空列表,用于存储热搜词和热搜指数的组合。然后,遍历元素列表,提取热搜词和热搜指数,并将其组合为一个字符串。
context = [] # 创建一个空列表,用于存储热搜词和热搜指数的组合
for i in range(len(kw)):
k = kw[i].text.strip() # 获取热搜词并移除左右空格
v = count[i].text.strip() # 获取热搜指数并移除左右空格
context.append(f"{k} - {v}".replace('\n', '')) # 将热搜词和热搜指数组合为一个字符串,并将其中的换行符替换为空格
步骤 6: 打印热搜词和热搜指数
最后,我们将遍历存储热搜词和热搜指数的列表,并打印每个热搜词和热搜指数的组合。
for j in context:
print(j) # 打印每个热搜词和热搜指数的组合
完整代码
import requests # 导入requests模块,用于发送HTTP请求
from bs4 import BeautifulSoup # 导入BeautifulSoup模块,用于解析HTML
url = "https://top.baidu.com/board?tab=realtime" # 目标网页的URL
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"
} # 请求头,用于伪装成浏览器进行访问
res = requests.get(url, headers=headers) # 发送GET请求,并获取响应对象
html = res.text # 将响应内容转换为字符串形式
soup = BeautifulSoup(html, features="html.parser") # 使用BeautifulSoup解析网页内容,指定解析器为html.parser
kw = soup.select("div .c-single-text-ellipsis") # 使用CSS选择器获取热搜词的元素列表
count = soup.select("div .hot-index_1Bl1a") # 使用CSS选择器获取热搜指数的元素列表
context = [] # 创建一个空列表,用于存储热搜词和热搜指数的组合
for i in range(len(kw)):
k = kw[i].text.strip() # 获取热搜词并移除左右空格
v = count[i].text.strip() # 获取热搜指数并移除左右空格
context.append(f"{k} - {v}".replace('\n', '')) # 将热搜词和热搜指数组合为一个字符串,并将其中的换行符替换为空格
for j in context:
print(j) # 打印每个热搜词和热搜指数的组合