利用MySQL数据库,可以轻松地管理爬虫所得的海量数据。对MySQL以及pymysql不太熟悉的读者,可以先学习MySQL教程和pymysql教程。
第三方库
- requests
- beautifulsoup
- pymysql
爬取数据
本文以https://www.bitpush.news/covid19/为例:
打开页面,右键点击F12,找到所需爬取的数据在HTML中的位置:
def getdata():
res = requests.get("https://www.bitpush.news/covid19/")
html = res.text
bs = BeautifulSoup(html, features="lxml")
titles = []
confirms = []
deaths = []
titleslist = bs.find_all(class_='table_card_cell_col_0 table_card_cell_stringwithicon_type')
for item in titleslist:
titles.append(item.text) # text方法可以去掉标签值
confirmslist = bs.find_all(class_='table_card_cell_col_1 table_card_cell_int_type')
for item in confirmslist: