python数据采集-数据存储 005

进行数据采集时,我们需要思考的问题时,我们需要的信息是需要下载下来还是只存储一个连接即可。 如果你的信息只用一次,建议只爬取信息连接即可,如果你的信息需要多次重复使用,可以下载下来,防止爬虫失效,但是爬取数据时注意不要对信息提供者造成影响。而且下载还有一个好处,可以让你的爬虫看起来更像浏览器行为。

1.下载文件

下载文件使用urllib.request.urlretrieve,这个函数可以根据url下载文件。当我们想要下载图片时,我们就可以提取图片连接,然后交给这个函数处理,下载到指定的图片。

from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com")
bs0bj = BeautifulSoup(html)
imageLocation = bs0bj.find("a",{"id": "logo"}).find("img")["src”]
urlretrieve (imageLocation, "logo.jpg")

上面的例子就是从指定的连接下载图片并存为logo.jpg

2.数据存储为csv

csv是表格数据的常用存储格式。下面是创建一个csv的代码:

#参考代码,测试没有通过,可能是csv库修改了
import csv

csvFile = open("../files/test.csv", 'w+')
try:
	writer = csv.writer(csvFile)
	writer.writerow(('number', 'number plus 2', 'number times 2'))
	for i in range(10):
		writer.writerow((i,i+2,i^2))
finally:
	csvFile.close()

3.存储为MYSQL

mysql是当下最流行的开源关系型数据库,基本上可以满足我们的需求,最新的5.7版本支持json,非常适合作为爬虫存储的仓库。

centos下MYSQL安装教程:http://www.centoscn.com/mysql/2016/0315/6844.html

教程备份:https://yunpan.cn/cPDIwUgJaifiD (提取码:9a27)

安装PyMysql整合python与mysql:

pip install PyMySQL

参考: https://github.com/PyMySQL/PyMySQL/

安装PYmysql后,启动MYSQL,可以执行下面命令测试连接:

import pymysql
conn = pymysql.connect(host='127.0.0.1', unix_socket='/tmp/mysql.sock',user='root', passwd=None, db='mysql')
#启用连接对象(conn)和光标对象(cur)
cur = conn.cursor()
cur.execute("USE scraping")

cur.execute("SELECT * FROM pages WHERE id=1")
print(cur.fetchone())
#关闭cur和conn,使用后必须关闭
cur.close()
conn.close()

下面是从维基百科爬来的程序存入mysql

输入图片说明输入图片说明

4.Email

Email使用SMTP协议传输的,假设本机上有一个SMTP客户端。用Python发送一封邮件只需要数行代码:

import smtplib

from email.mime.text import MIMEText

msg = MIMEText("The body of the email is here")

msg['Subject'] = "An Email Alert"
msg['From'] = "ryan@pythonscraping.com"
msg['To'] = "webmaster@pythonscraping.com"

s = smtplib.SMTP('localhost')
s.send_message(msg)
s.quit()

参考:https://docs.python.org/3.5/library/email-examples.html

转载于:https://my.oschina.net/clgo/blog/671484

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值