媒体文件
存储媒体文件有两种主要的方式:只获取文件 URL 链接,或者直接把源文件下载下来
通过媒体文件所在的URL链接的优点
• 爬虫运行得更快,耗费的流量更少,因为只要链接,不需要下载文件。
• 可以节省很多存储空间,因为只需要存储 URL 链接就可以。
• 存储 URL 的代码更容易写,也不需要实现文件下载代码。
• 不下载文件能够降低目标主机服务器的负载。
缺点
• 这些内嵌在你的网站或应用中的外站 URL 链接被称为盗链
• 因为你的链接文件在别人的服务器上,所以你的应用就要跟着别人的节奏运行
• 盗链是很容易改变的。
• 现实中的网络浏览器不仅可以请求 HTML 页面并切换页面,它们也会下载访问页面上 所有的资源。
urllib.request.urlretrieve 可以根据文件的URL下载文件
把数据存储到CSV
安装MySQL5.5
使用pymysql连接mysql
用完光标的连接后,一定要记得将他们关闭