Python学习-简单爬虫及文件保存

最新推荐文章于 2023-10-30 16:10:28 发布

MrHave

最新推荐文章于 2023-10-30 16:10:28 发布

阅读量1.4k

点赞数

分类专栏： Python学习

本文链接：https://blog.csdn.net/jiandande3218/article/details/108327348

版权

Python学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

百度数据抓取及保存文件：

import requests

# 获取网站信息
response = requests.get("http://www.baidu.com"); #生成一个response对象
response.encoding = response.apparent_encoding; #设置编码格式
#response.encoding = "utf-8"; #设置接收编码格式
print("状态码:" + str(response.status_code)); #打印状态码
#print(response.text); #输出爬取的信息
#保存文件
file = open("D:\\baidu.html","w",encoding="utf")  #打开一个文件，w是文件不存在则新建一个文件，这里不用wb是因为不用保存成二进制
file.write(response.text);
file.close();

知乎数据抓取及保存文件：

import requests

#response = requests.get( "http://www.zhihu.com")  #第一次访问知乎，不设置头部信息
#print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers，不能正常爬取，状态码不是 200
#下面是可以正常爬取的区别，更改了User-Agent字段
headers = {
		"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"
}#设置头部信息,伪装浏览器
response = requests.get("http://www.zhihu.com" , headers=headers);  #get方法访问,传入headers参数，
print("状态码:" + str(response.status_code)); # 200！访问成功的状态码
#print(response.text);
#保存文件
file = open("D:\\zhuhu.html","w",encoding="utf")  #打开一个文件，w是文件不存在则新建一个文件，这里不用wb是因为不用保存成二进制
file.write(response.text);
file.close();

保存图片：

#保存百度图片到本地

import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif")  #get方法的到图片响应

file = open("D:\\baidu_logo.gif","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入

file.write(response.content) #写入文件

file.close()#关闭操作，运行完毕后去你的目录看一眼有没有保存成功

MrHave

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
Python学习-简单爬虫及文件保存

百度数据抓取及保存文件：import requests# 获取网站信息response = requests.get("http://www.baidu.com"); #生成一个response对象response.encoding = response.apparent_encoding; #设置编码格式#response.encoding = "utf-8"; #设置接收编码格式print("状态码:" + str(response.status_code)); #打印状态码#pri
复制链接

扫一扫