048_爬虫案例_360搜索信息爬取

最新推荐文章于 2023-06-05 14:36:36 发布

煮面要加牛奶

最新推荐文章于 2023-06-05 14:36:36 发布

阅读量663

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_21156327/article/details/105590708

版权

爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

需求分析：

对360搜索页面分析，删去不必要的参数信息，可得出其搜索URL为：https://www.so.com/s?q=搜索内容
根据搜索关键字返回相应的整个完整的搜索结果页面信息

主要流程：

下载页面内容，即利用requests模块获取页面，并返回页面信息(二进制)
将获得的页面信息保存至本地 html 文件中，注意写入方式！

from urllib.error import HTTPError
from fake_useragent import UserAgent
from colorama import Fore
import requests


def download_page(url, params=None):
    try:
        ua = UserAgent()  
        headers = {"User-Agent": ua.random}  # 用户代理设置
        response = requests.get(url, params=params, headers=headers)  # 传入搜索内容(参数)，以及用户代理信息
        print("URL:", response.url)
    except HTTPError as e:
        print(Fore.RED + '[-] 爬取网站%s失败：%s' % (url, e.reason))
        return None
    else:
        return response.content  # 二进制页面信息


def download_file(content=b"", filename="res.html"):
    """
    :param content: 写入的内容需为 bytes 数据类型
    :param filename:
    :return:
    """
    with open(filename, "wb") as f:
        f.write(content)
        print(Fore.GREEN + "[+] 写入文件%s成功" % filename)


if __name__ == '__main__':
	# 京东商品页面定向下载
    # content = download_page("https://item.jd.com/100012015170.html")
    # download_file(content=content)

    url = 'https://www.so.com/s'
    params = {
        'q': 'python'
    }
    content = download_page(url, params)
    download_file(content)

执行结果：
在这里插入图片描述

煮面要加牛奶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
048_爬虫案例_360搜索信息爬取

需求分析：对360搜索页面分析，删去不必要的参数信息，可得出其搜索URL为：https://www.so.com/s?q=搜索内容根据搜索关键字返回相应的整个完整的搜索结果页面信息主要流程：下载页面内容，即利用requests模块获取页面，并返回页面信息(二进制)将获得的页面信息保存至本地 html 文件中，注意写入方式！from urllib.error import H...
复制链接

扫一扫