前两篇文章都在说在py中用BeautfulSoup爬取本地网页的事情,本来准备去真实网页试一下的,但是老林说不如把你之前学的mysql数据库温习一下,顺道学着把你现在爬到的网页存取到mysql数据库之中~
由此 本文的主题就出现了:
如何在python3中将网页爬虫数据存储到mysql数据库
先小小插播一下:为何标题强调python3!
因为py2与py3连接数据库时用的不是一个库!
PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,
Python2中则使用mysqldb。
from bs4 import BeautifulSoup
import pymysql
#本地网页爬取数据
#即上一篇文章所学知识
def getData():
datalist = []
with open('D:/Study/Data Analysis/week1/1_2/1_2answer_of_homework/1_2_homework_required/index.html','r')as wb_data:
Soup = BeautifulSoup(wb_data,'lxml')
#print(Soup)
# address = Soup.select('body > div:nth-of-type(3) > div > div.col-md-9 > div:nth-of-type(3) > div:nth-of-type(3) > div > img')
address = Soup.select('body > div > div > div.col-md-9 > d