python网络爬虫-数据存储之媒体文件

最新推荐文章于 2022-10-30 13:16:45 发布

perfecttshoot

最新推荐文章于 2022-10-30 13:16:45 发布

阅读量695

点赞数 1

分类专栏： python网络爬虫文章标签：文件存储 Python网络爬虫 URL 文件内容 os模块

本文链接：https://blog.csdn.net/wanght89/article/details/78036962

版权

python网络爬虫专栏收录该内容

37 篇文章 3 订阅

订阅专栏

存储媒体文件有两种主要方式：只获取文件URL链接，或者直接把源文件下载下来。你可以通过媒体文件所在的URL链接直接饮用它。这样做的优点如下：

爬虫运行更快，耗费的流量更少，因为只需链接，不需要下载文件
可以节省很多的存储空间，因为只需要存储URL链接就可以了
存储URL的代码更容易写，也不需要实现文件下载代码
不下载文件能够降低目标主机服务器的负载

不过这么做也有一些缺点

这些内嵌在你的网站或应用中的外站URL链接被称为盗链（hotlinking），使用盗链可能让你麻烦不断，每个网站都会实施防盗链措施。
因为你的链接文件在别人的服务器上，所以你的应用就要跟着别人的节奏运行了
盗链很容易改变的。如果你把盗链图片放在博客上，要是被对方服务器发现，很可能被恶搞。如果你把URL链接存起来准备以后使用，可能用的时候链接已经已经失效了，或者是变成了完全无关的内容
现实中的网络浏览器不仅可以请求HTML页面并切换页面，它们也会下载访问页面上的现有资源。下载文件会让你爬虫看起来更像是在人在浏览网站，这样做反而有好处。

如果你还在犹豫究竟是存储文件，还是存储文件的URL链接，可以想想这些文件是要多次使用，还是放进数据库后就只是等着“落灰”，再也不会被打开，如果答案是后者，最好还是只存储这些文件的URL吧。如果答案是前者，那么请继续往下阅读：

在Python3.x的版本中，urllib.request.urlretrieve可以更具文件的URL下载文件：

from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com")
bsObj=BeautifulSoup(html,"html.parser")
imageLocation=bsObj.find("a",{"id":"logo"}).find("img")["src"]
urlretrieve(imageLocation,"logo.jpg")

脚本执行结果如下：

成功完成图片的下载功能。这段程序从http://www.pythonscraping.com下载logo图片，然后在程序运行的文件夹里保存为logo.jpg图片。

如果你只需要下载一个文件，而且知道如何获取它，以及它的文件类型，这么做就可以了。但是大多数爬虫都不可能一天只下载一个文件，下面的程序会把htpp://pythonscraping.com主页上所有的src属性的文件都下载下来：

import os
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup
downloadDirectory="download"
baseUrl="http://pythonscraping.com"
def getAbsoluteURL(baseUrl,source):
    if source.startswith("http://www."):
        url="http://"+source[11:]
    elif source.startswith("http://"):
        url=source
    elif source.startswith("www."):
        source=source[4:]
        url="http:"+source
    else:
        url=baseUrl+"/"+source
    if baseUrl not in url:
        return None
    return url

def getDownloadPath(baseUrl,absoluteUrl,downloadDirectory):
    path=absoluteUrl.replace("www.","")
    path=path.replace(baseUrl,"")
    path=downloadDirectory+path
    directory=os.path.dirname(path)
    if not os.path.exists(directory):
        os.makedirs(directory)
    return path
html=urlopen("http://www.pythonscraping.com")
bsObj=BeautifulSoup(html,"html.parser")
downloadList=bsObj.findAll(src=True)
for download in downloadList:
    fileUrl=getAbsoluteURL(baseUrl,download["src"])
    if fileUrl is not None:
        print(fileUrl)
        urlretrieve(fileUrl,getDownloadPath(baseUrl,fileUrl,downloadDirectory))

该段程序执行结果如下：