爬虫实战：制作简单的页面采集器

最新推荐文章于 2023-04-12 09:07:17 发布

Hummer-200

最新推荐文章于 2023-04-12 09:07:17 发布

阅读量351

点赞数

分类专栏：网络爬虫

本文链接：https://blog.csdn.net/qq_51459600/article/details/118660645

版权

网络爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

以百度为例制作简单的页面采集器

首先尝试利用百度搜做引擎搜索任意信息：

在这里插入图片描述 url如下：
观察可知我们需要的URL如下：
https://www.baidu.com/s?wd=123

首先利用python脚本发送请求：

import requests

url = 'https://www.baidu.com/s'
kw = input('please input your keywords:')
param = {
    'wd':kw
}
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url=url,params=param,headers=headers)
response.encoding = 'utf-8'
print(response.text)

在这里插入图片描述
返回结果如下：

将爬取下来的内容保存到相应的html文件中：
完整代码：

import requests

url = 'https://www.baidu.com/s?'
kw = input('input your keyword:')
param = {
    'wd':kw
}
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url=url,params=param,headers=headers)
response.encoding = 'utf-8'
page_text = response.text
filename = kw+'.html'
with open(filename,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print('保存成功！')

在这里插入图片描述在响应文件夹中找到该html文件
用chrome打开如下：

Hummer-200

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫实战：制作简单的页面采集器

以百度为例制作简单的页面采集器首先尝试利用百度搜做引擎搜索任意信息：url如下：观察可知我们需要的URL如下：https://www.baidu.com/s?wd=123首先利用python脚本发送请求：import requestsurl = 'https://www.baidu.com/s'kw = input('please input your keywords:')param = { 'wd':kw}headers = { 'User-Agent':'Mo
复制链接

扫一扫

专栏目录