【爬虫】案例01：爬取某搜索网站搜索结果数据

西瓜WiFi

已于 2023-03-12 17:41:55 修改

阅读量4.4k

点赞数 3

分类专栏：爬虫文章标签：爬虫 python

于 2023-03-12 15:19:11 首次发布

本文链接：https://blog.csdn.net/m0_62011685/article/details/129474959

版权

爬虫专栏收录该内容

4 篇文章

订阅专栏

古人云：“问君能有几多愁，恰似一群爬虫在爬网。” 但现在的我们可以说：“学爬虫，就像打怪升级一样，一步一步，勤学多练才能变得更强！下面就开始爬虫的第一个案例练习吧，获取搜索结果要涉及requests、beautiful soup、pandas等知识点，非常适合刚入门python爬虫的小伙伴练习。
注：若涉及到版权或隐私问题，请及时联系我删除即可。

一、分析页面

GET请求
关键词在query中
页码在page中

二、requests用法简介

1. GET请求

GET请求用于向服务器请求某个资源，常用于获取数据，例如获取网页、图片、视频等。GET请求会在URL中附加请求参数，因此可以通过修改URL来发送不同的请求，请求参数通常包含在URL的查询字符串中。例如：

import requests

# 发送GET请求
url = '搜索url'
params = {'query': 'key_word', 'page': '1'}
response = requests.get(url, params=params)

# 处理响应
print(response.status_code) # 响应状态码
print(response.headers)     # 响应头部
print(response.content)     # 响应内容（以字节形式）
print(response.text)        # 响应内容（以字符串形式）

GET请求的优点是请求速度快、方便缓存，缺点是安全性差，因为请求参数会被暴露在URL中，容易被恶意攻击者截取或篡改。

2. POST请求

POST请求用于向服务器提交数据，常用于提交表单、上传文件等。POST请求会将请求参数包含在请求体中，而不是URL中，因此可以提交比较大的数据。例如：

import requests

# 发送POST请求
url = '搜索url'
data = {'username': 'name', 'password': '******'}
response = requests.post(url, data=data)

# 处理响应
print(response.status_code) # 响应状态码
print(response.text)        # 响应内容

POST请求的优点是安全性高，因为请求参数不会暴露在URL中，缺点是请求速度慢、不能缓存。此外，由于POST请求可以提交比较大的数据，因此也有可能导致服务器负载过高，需要进行限流控制。

总结，GET和POST都是常用的HTTP请求方法。

向服务器请求某个资源，使用GET请求；
提交数据，通常使用POST请求。

3. params与data参数

使用requests库发送HTTP请求时，参数params和data都用于传递请求参数，但它们的含义和用法有所不同。

params参数：用于传递GET请求的参数，将参数编码后添加到URL的查询字符串中。
data参数：用于传递POST请求的参数，将参数编码后添加到请求体中。

如上面例中的GET请求与POST请求。

4. 请求头headers

headers 参数来设置请求头信息。请求头包含了浏览器或客户端向服务器发送的信息，用于描述请求的属性和内容。在 requests 中，headers 参数是一个字典对象，包含了需要设置的请求头信息。例如：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0', # 发送请求的用户代理信息，包括操作系统和浏览器类型
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', # 能够接受的响应类型
    'Accept-Language': 'en-US,en;q=0.5', # 能够接受的自然语言类型
    'Accept-Encoding': 'gzip, deflate, br', # 能够接受的内容编码类型
    'Connection': 'keep-alive', # 是否需要保持连接
    'Upgrade-Insecure-Requests': '1', # 是否需要升级不安全的请求
    'Referer': 'https://www.google.com/', # 发送请求的来源页面
    'If-Modified-Since': 'Thu, 01 Jan 1970 00:00:00 GMT', # 上次修改时间，用于判断是否需要重新请求
    'Cache-Control': 'max-age=0', # 缓存控制，指定缓存策略
    'Cookie': 'session_id=1234567890abcdef' # 添加cookie
}

常用的设置，我们会在headers中加入User-Agent、Cookie等

5. 代理服务信息proxies

proxies参数用于指定HTTP代理服务器，即将请求发送到代理服务器而不是目标服务器。HTTP代理服务器可以用于匿名访问目标服务器，绕过地理位置限制或绕过防火墙等。proxies参数是一个字典，其中包含协议（http或https）和代理服务器的地址和端口号。例如：

import requests

proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

response = requests.get('搜索url', proxies=proxies)

print(response.text)

6. 小结

在确定了请求方式之后，使用requests模块请求的常用请求代码为：

GET请求

import requests

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}

# 设置请求参数
params = {
    'query': 'key_word',
    'page': 1,
}

# 设置代理
proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

# 发送请求
response = requests.get('搜索url', headers=headers, params=params, proxies=proxies)

# 输出响应内容
print(response.text)

三、请求页面

有了上面requests模块的基础和分析，请求方式为GET，使用params参数传递关键词参数和页面参数

import requests

key_word = input('请输入查询关键词：')
page_num = int(input('请输入需要查询的页数：'))
url = '搜索url'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
data = []  # 存储搜索结果的列表
for i in range(page_num):
    params = {
        'query': key_word, # 指定关键词
        'page': i + 1  # 指定查询的页数
    }
    try:
        response = requests.get(url=url, headers=headers, params=params)
        response.raise_for_status()  # 检查请求是否成功，若不成功则抛出异常
        response.encoding = response.apparent_encoding  # 使用正确的编码解析响应内容
        page_text = response.text
    except Exception as e:
        print('请求失败：', e)
    if page_text is None:
        print(f'第{i + 1}页搜索结果获取失败')
        continue
    print(page_text)

请求成功返回了page_text，使用BeautifulSoup解析数据，提取搜索结果的url和title

from bs4 import BeautifulSoup
soup = BeautifulSoup(page_text, 'lxml')
    results = soup.find_all('div', class_='vrwrap')
    data = []
    for result in results:
        url = result.find('a')['href']
        title = result.find('a').text
        data.append({'链接': url, '标题': title})
        print(data)

使用pandas库将数据写入Excel

import pandas as pd

df = pd.DataFrame(data)
try:
    df.to_excel('results.xlsx', index=False, encoding='utf-8')
    print(f'数据已写入Excel文件：results.xlsx')
except Exception as e:
    print('写入Excel文件失败：', e)

四、函数封装，规范代码

import time
import requests
from bs4 import BeautifulSoup
import pandas as pd



def get_page_text(url: str, headers: dict, params: dict) -> str:
    """
    发起请求并返回响应文本

    :param url: 请求的URL地址
    :param headers: 请求头信息，包含User-Agent等
    :param params: 请求参数，包含查询关键词等
    :return: 响应文本
    """
    try:
        response = requests.get(url=url, headers=headers, params=params)
        response.raise_for_status()  # 检查请求是否成功，若不成功则抛出异常
        response.encoding = response.apparent_encoding  # 使用正确的编码解析响应内容
        return response.text
    except Exception as e:
        print('请求失败：', e)

def parse_page(page_text):
    """
    解析HTML页面，获取url和title，并存储到列表中
    """
    soup = BeautifulSoup(page_text, 'lxml')
    results = soup.find_all('div', class_='vrwrap')
    data = []
    for result in results:
        url = result.find('a')['href']
        title = result.find('a').text
        data.append({'链接': url, '标题': title})
    return data


def get_search_results(key_word: str, page_num: int) -> pd.DataFrame:
    """
    获取搜索结果，并以DataFrame形式返回

    :param key_word: 查询关键词
    :param page_num: 需要查询的页数
    :return: DataFrame对象，包含搜索结果的链接和标题
    """
    url = '搜索url'
    headers = {
        'User-Agent': '"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",'
    }
    data = []  # 存储搜索结果的列表
    for i in range(page_num):
        print("正在抓取第{}页，请稍后...".format(i+1))
        print('-'*200)
        params = {
            'query': key_word, # 指定关键词
            'page': i + 1  # 指定查询的页数
        }
        page_text = get_page_text(url, headers, params)
        if page_text is None:
            print(f'第{i + 1}页搜索结果获取失败')
            continue
        page_data = parse_page(page_text)
        data.extend(page_data)
        time.sleep(3)
    df = pd.DataFrame(data)

    return df


def save_to_excel(df: pd.DataFrame, filename: str, sheet_name: str) -> None:
    """
    将DataFrame对象中的数据写入Excel文件

    :param df: DataFrame对象
    :param filename: Excel文件名
    :param sheet_name: 工作表名
    """
    try:
        df.to_excel(filename, index=False, encoding='utf-8', sheet_name=sheet_name)
        print(f'数据已写入Excel文件：{filename}，工作表名：{sheet_name}')
    except Exception as e:
        print('写入Excel文件失败：', e)


if __name__ == '__main__':
    key_word = input('请输入查询关键词：')
    page_num = int(input('请输入需要查询的页数：'))
    df = get_search_results(key_word, page_num)
    save_to_excel(df, 'results.xlsx', '搜索结果')

需要注意的是网站对访问频率有着限制，需要降低访问频率，或者使用代理IP解决被限制的问题。完整代码已放置我的网盘，需要请自取。