在数据时代,我们每个人既是数据的生产者,也是数据的使用者,然而初次获取和存储的原始数据杂乱无章、信息冗余、价值较低。
要想数据达到生动有趣、让人一目了然、豁然开朗的效果,就需要借助数据可视化。
以前给大家介绍过使用Streamlit库制作大屏,今天给大家带来一个新方法。
通过Python的Dash库,来制作一个酷炫的可视化大屏!
先来看一下整体效果,好像还不错哦。
主要使用Python的Dash库、Plotly库、Requests库。
其中Requests爬取数据,Plotly制作可视化图表,Dash搭建可视化页面。
原始数据是小F的博客数据,数据存储在MySqL数据库中。
如此看来,和Streamlit库的搭建流程,所差不多。
关于Dash库,网上的资料不是很多,基本上只能看官方文档和案例,下面小F简单介绍一下。
Dash是一个用于构建Web应用程序的高效Python框架,特别适合使用Python进行数据分析的人。
Dash是建立在Flask,Plotly.js和React.js之上,非常适合在纯Python中,使用高度自定义的用户界面,构建数据可视化应用程序。
下面就给大家讲解下如何通过Dash搭建可视化大屏~
01. 数据
使用的数据是博客数据,主要是下方两处红框的信息。
通过爬虫代码爬取下来,存储在MySQL数据库中。
其中MySQL的安装,大家可以自行百度,都挺简单的。
安装好后,进行启用,以及创建数据库。
# 启动MySQL, 输入密码 mysql -u root -p # 创建名为my_database的数据库 create database my_database;
其它相关的操作命令如下所示。
# 显示MySQL中所有的数据库 show databases; # 选择my_database数据库 use my_database; # 显示my_database数据库中所有的表 show tables; # 删除表 drop table info; drop table `2021-12-26`; # 显示表中的内容, 执行SQL查询语句 select * from info; select * from `2021-12-26`;
搞定上面的步骤后,就可以运行爬虫代码。
数据爬取代码如下。这里使用到了pymysql这个库,需要pip安装下。
import requests import re from bs4 import BeautifulSoup import time import random import pandas as pd from sqlalchemy import create_engine import datetime as dt def get_info(): """获取大屏第一列信息数据""" headers = { 'User-Agent': 'Mozilla/5.0 (MSIE 10.0; Windows NT 6.1; Trident/5.0)', 'referer': 'https: // passport.csdn.net / login', } # 我的博客地址 url = 'https://blog.csdn.net/river_star1/article/details/121463591' try: resp = requests.get(url, headersheaders=headers) now = dt.datetime.now().strftime("%Y-%m-%d %X") soup = BeautifulSoup(resp.text, 'lxml') author_name = soup.find('div', class_='user-info d-flex flex-column profile-intro-name-box').find('a').get_text(strip=True) head_img = soup.find('div', class_='avatar-box d-flex justify-content-center flex-column').find('a').find('img')['src'] row1_nums = soup.find_all('div', class_='data-info d-flex item-tiling')[0].find_all('span', class_='count') row2_nums = soup.find_all('div', class_='data-info d-flex item-tiling')[1].find_all('span', class_='count') level_mes = soup.find_all('div', class_='data-info d-flex item-tiling')[0].find_all('dl')[-1]['title'].split(',')[0] rank = soup.find('div', class_='data-info d-flex item-tiling').find_all('dl')[-1]['title'] info = { 'date': now,#时间 'head_img': head_img,#头像 'author_name': author_name,#用户名 'article_num': str(row1_nums[0].get_text()),#文章数 'fans_num': str(row2_nums[1].get_text()),#粉丝数 'like_num': str(row2_nums[2].get_text()),#喜欢数 'comment_num': str(row2_nums[3].get_text()),#评论数 'level': level_mes,#等级 'visit_num': str(row1_nums[3].get_text()),#访问数 'score': str(row2_nums[0].get_text()),#积分 'rank': str(row1_nums[2].get_text()),#排名 } df_info = pd.DataFrame([info.values()], columns=info.keys()) return df_info except Exception as e: print(e) return get_info() def get_type(title): """设置文章类型(依据文章名称)""" the_type = '其他' article_types = ['项目', '数据可视化', '代码', '图表', 'Python', '可视化', '数据', '面试', '视频', '动态', '下载'] for article_type in article_types: if article_type in title: the_type = article_type break return the_type def get_blog(): """获取大屏第二、三列信息数据""" headers = { 'User-Agent': 'Mozilla/5.0 (MSIE 10.0; Windows NT 6.1; Trident/5.0)', 'referer': 'https: // passport.csdn.net / login', } base_url = 'https://blog.csdn.net/river_star1/article/list/' resp = requests.get(base_url+"1", headersheaders=headers, timeout=3) max_page = int(re.findall(r'var listTotal = (\d+);', resp.text)[0])