爬虫（二）

最新推荐文章于 2023-06-28 01:20:34 发布

sliver_goup

最新推荐文章于 2023-06-28 01:20:34 发布

阅读量88

点赞数

分类专栏：爬虫

原文链接：https://blog.csdn.net/bcxbhello/category_10609734.html

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

找到User-Agent

指定url：url = ‘https://www.baidu.com/s?wd’+wd（要搜索的内容）
在这里插入图片描述
在下图可看到user-agent

爬取页面代码，有具体详解：

import requests
#常用请求头信息
#User-Agent:请求载体的身份标识（伪装身份的道具）
#Connection：请求完毕后，是断开连接还是保持连接
header={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
#常用响应头信息
#content-type: 服务器响应回客户端的数据类型
wd = input('请输入要搜索的内容')
url = 'https://www.baidu.com/s?wd'+wd
response = requests.get(url=url,headers=header)

#把爬取下来的数据text化
page_text = response.text
#起名， .html是后缀名，你也可以起.txt，.html可以直接以网页的方式打开
fileName = wd + '.html'
#持久化存储，这方面的如果有不理解的可以直接百度的，或者留言也可以哦
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(fileName+'保存成功！')

成功会生成如下的HTML

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sliver_goup

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫（二）

找到User-Agent指定url：url = ‘https://www.baidu.com/s?wd’+wd（要搜索的内容）在下图可看到user-agent爬取页面代码，有具体详解：import requests#常用请求头信息#User-Agent:请求载体的身份标识（伪装身份的道具）#Connection：请求完毕后，是断开连接还是保持连接header={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWe
复制链接

扫一扫