Python爬虫学习之下载源文件与数据存储

最新推荐文章于 2024-07-23 08:13:57 发布

Yannie_CUFE

最新推荐文章于 2024-07-23 08:13:57 发布

阅读量326

点赞数

分类专栏： Python爬虫学习文章标签： Python 爬虫

本文链接：https://blog.csdn.net/m0_37544963/article/details/103132240

版权

本文介绍了Python爬虫中如何下载源文件，包括使用urlretrieve下载单个文件，创建本地路径下载多个文件，以及如何将爬取的结构化数据存储到CSV文件中。

摘要由CSDN通过智能技术生成

下载源文件与数据存储

下载源文件 urlretrieve

多用于非结构化的数据（图片等），以下载http://www.pythonscraping.com 上的logo.jpg为例：

'''urlretrieve'''
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com")
bsObj=BeautifulSoup(html,"html.parser")
imageLocation=bsObj.find("a",id="logo").find("img").attrs["src"]
urlretrieve(imageLocation,"logo.jpg")

'''显示logo.jpg'''
import matplotlib.pyplot as plt # plt 用于显示图片
import matplotlib.image as mpimg # mpimg 用于读取图片
 
logo = mpimg.imread('logo.jpg')

最低0.47元/天解锁文章

Yannie_CUFE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录