使用MySQL管理爬虫所得数据——入门篇

本文介绍了如何使用MySQL和Python的pymysql库管理爬虫数据。从爬取指定网页内容,到解析并存储到MySQL数据库,提供了一个完整的入门教程。涉及到的第三方库包括requests、beautifulsoup和pymysql。
摘要由CSDN通过智能技术生成

利用MySQL数据库,可以轻松地管理爬虫所得的海量数据。对MySQL以及pymysql不太熟悉的读者,可以先学习MySQL教程pymysql教程

第三方库

  • requests
  • beautifulsoup
  • pymysql

爬取数据

本文以https://www.bitpush.news/covid19/为例:
打开页面,右键点击F12,找到所需爬取的数据在HTML中的位置:

在这里插入图片描述

def getdata():
	res = requests.get("https://www.bitpush.news/covid19/")
	html = res.text
	bs = BeautifulSoup(html, features="lxml")
	titles = []
	confirms = []
	deaths = []
	titleslist = bs.find_all(class_='table_card_cell_col_0 table_card_cell_stringwithicon_type')
	for item in titleslist:
		titles.append(item.text)  # text方法可以去掉标签值
	confirmslist = bs.find_all(class_='table_card_cell_col_1 table_card_cell_int_type')
	for item in confirmslist:
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值