【数据库】python3中将网页爬虫数据存储到mysql数据库

前两篇文章都在说在py中用BeautfulSoup爬取本地网页的事情,本来准备去真实网页试一下的,但是老林说不如把你之前学的mysql数据库温习一下,顺道学着把你现在爬到的网页存取到mysql数据库之中~
由此 本文的主题就出现了:

如何在python3中将网页爬虫数据存储到mysql数据库

先小小插播一下:为何标题强调python3!
因为py2与py3连接数据库时用的不是一个库!
PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,
Python2中则使用mysqldb。

from bs4 import BeautifulSoup
import pymysql

#本地网页爬取数据
#即上一篇文章所学知识
def getData():
  datalist = []
  with open('D:/Study/Data Analysis/week1/1_2/1_2answer_of_homework/1_2_homework_required/index.html','r')as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    #print(Soup)
    # address = Soup.select('body > div:nth-of-type(3) > div > div.col-md-9 > div:nth-of-type(3) > div:nth-of-type(3) > div > img')
    address = Soup.select('body > div > div > div.col-md-9 > d
  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
首先,需要使用Python编写爬虫程序,使用BeautifulSoup库来解析HTML页面,然后使用requests库来获取目标网站的网页内容。 接着,需要使用数据库API(如MySQLdb)连接到本地数据库,并创建一个表来储存数据。 在爬虫程序中,可以使用BeautifulSoup库来定位需要爬取的数据,并将数据存储到一个字典中。然后,将字典中的数据插入到数据库表中。 最后,关闭数据库连接,完成数据储存的过程。 以下是一个简单的示例代码: ``` python import requests from bs4 import BeautifulSoup import MySQLdb # 连接数据库 db = MySQLdb.connect(host='localhost', user='root', password='password', db='testdb', charset='utf8') cursor = db.cursor() # 获取网页内容 url = 'https://www.example.com' response = requests.get(url) content = response.text # 解析HTML页面 soup = BeautifulSoup(content, 'html.parser') # 定位需要爬取的数据 data = {} data['title'] = soup.find('title').text data['content'] = soup.find('div', {'class': 'content'}).text # 将数据插入到数据库表中 sql = "INSERT INTO example_table (title, content) VALUES (%s, %s)" values = (data['title'], data['content']) cursor.execute(sql, values) db.commit() # 关闭数据库连接 cursor.close() db.close() ``` 在这个示例中,我们使用了MySQLdb库来连接到本地数据库,并在数据库中创建了一个名为example_table的表,用于存储数据。我们使用了requests库来获取目标网站的网页内容,使用BeautifulSoup库来解析HTML页面,并使用Python字典来存储需要爬取的数据。最后,我们将数据插入到数据库表中,并关闭了数据库连接。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值