动态数据交换 python_如何用 Python 和 Streamlit 做交互式数据分析产品?

「本文参与少数派 2019 年度征文 + 效率有心得」

不用学前端编程,你就能用 Python 简单高效写出漂亮的交互式 Web 应用,将你的数据分析成果立即展示给团队和客户。

痛点

从我开始折腾数据分析工具的那一天,就没有想明白一件事儿 —— 为什么我打算把数据分析的成果做成一个应用,这么难?

其实我需要的核心功能,无非是在网页上接收用户输入,然后做分析处理,把分析结果反馈给用户,完事儿。

可是这谈何容易?

很多人都会笑着告诉你,这得学前端编程, HTML + Javascript 了解一下吧!

什么?你还需要在后台做数据分析?那你就得学 Web 框架了。

你说喜欢 Python ?那就学个 Django 或者 Flask 好了。

我也不是没有看过 Django 和 Flask 的教程,还曾经付费学习过。光是配置环境,就得循序渐进学一堆东西。作为学习的中间成果,我还写了这篇《如何用 Python 做 Web 开发?——Django 环境配置》分享给你。

问题是我在学习中,提不起真正的兴趣。

因为教程里讲的那些功能,我根本不关心。

核心的功能,我早已实现了。我只是希望把输入输出弄成网页形式,方便用户来用。

我为什么要理解那么多的概念?为什么一定要跟那么繁重的数据库操作打交道?为什么几乎所有的样例,都要教我如何做一个 blog ?

我要是想用 blog ,可以直接注册一个免费的啊!难道我要自己开发?

你的教程为什么不干脆教我怎么把数据科学的分析结果,利用这些技术快速变成一个产品?

但是人家写书和做教程的人,就是不疾不徐,坚持一定要教会你,如何做一个 blog 出来……

我仿佛看见达芬奇的老师教学生画鸡蛋一样。

我相信,这绝不仅仅是我一个人的痛点。

我们都希望尽快把数据分析结果,或是其他的交互功能发布出来,和用户交流。但是因为缺乏这样的简单 Web 包裹,我们不得不每次都给别人展示一个包含了代码的 Jupyter Notebook 。

那些不懂编程的用户,看到代码,就会觉得不适。再看到改变一个输入都需要编程(其实就是改语句中的一个赋值),立刻就决定不玩儿了。

万万没想到,这个痛点,如此容易就解决了。

尝试

我用纯 Python 脚本写了个 Web 应用。

我编写的程序里,没有一丝半毫的 Web 框架,Javascript,甚至是 HTML 。

这玩意儿能用吗?

你自己来试试看。

请你打开浏览器,输入以下链接:

你会看到下面的初始化界面。

初始化完毕之后,页面会分成左右两栏。左面是两个下拉候选框,分别让你指定需要分析的数据范围。

上面一个,是事件类型;

下面一个,是事件发生归属地。

只不过,当时我们更注重的,是用循环神经网络搭建了一个严重拥堵事件预测模型。

而今天,我们是要进行探索性数据分析,也就是根据我们感兴趣的目标,对数据进行整理操作,然后可视化显示。

选定之后,你会看到右侧提示两个信息:

你筛选之后,数据框包含行数;

在层叠地图上的可视化结果。

怎么样?

麻雀虽小,五脏俱全。

虽然咱们这个 Web 应用很简单,不过交互分析该有的功能和流程,基本上都涵盖了。

你可能会问:

王老师,编这么一个应用出来,不简单吧?

学完这篇教程,你就能自己开发出这样一个应用来。

幕后

我把这个应用的全部源代码,都为你存储到了 Github 上。请你访问这个网址获取。

可以看到,一共包含了 4 个文件。

有意思的是,其中 3 个,包括:

Procfile

setup.sh

requirements.txt

都只是部署到远程服务器时,需要用到的配置文件而已。

这些文件的具体使用方法,咱们后面会说明。

也就是说,只有最后一个 helloworld.py 是主角,它包含了实现咱们全部交互式数据分析功能的 Python 脚本文件。

这代码,少说也得有几百行吧?

别担心,打开来看看:

上面这张截图,就已经包含了实现交互数据分析功能的全部代码。

神奇吧?

解读

这么短的代码,为什么能有如此强大的功能?

这是因为它背后使用的一个软件包,叫做 streamlit 。

下面我通过实际操作,带你初步领略一下 streamlit 的威力。

首先请你安装 Anaconda ,这个请参考我为你做的视频教程《如何安装 Python 运行环境 Anaconda?》

然后,你需要打开终端,执行:

pip install streamlit

你可以创建一个新目录。然后在目录下新建一个 helloworld.py 文件,并且用任意编辑器打开它。

我这里用 Visual Studio Code 编辑器,来编辑和制作 Python 脚本文件。

然后,回到终端下,执行:

streamlit run helloworld.py

如果一切顺利,你就会看到如下图的提示。

一般来说,你的浏览器会自动开启,并且访问上图中红色标识出的网址。

如果浏览器没有自动开启,你手动开启一个,并且输入上述网址即可。

为了演示方便,我这里把 Visual Studio Code 编辑器缩小到屏幕左侧半部;右边放置 Chrome 浏览器,来显示 Web 应用效果。

我们可以开始尝试了。

首先在 helloworld.py 中输入这些内容:

import streamlit as st

import numpy as np

import pandas as pd

st.title("my first app")

输入完之后,你不需要去找什么执行按钮。只需要保存一下你对 helloworld.py 文件的修改即可。

之后你会立即在右侧看到 Web 应用的运行效果。

这里前几行语句,只是引入了几个软件包,然后设置了一下标题。

下面我们尝试点儿好玩儿的。

x = st.slider("x")

y = x + 3

y

这时候网页上出现了滑动条,告诉你这是 x 的取值。

我们定义了一个式子,让 y 总比 x 大 3 ,并且显示 y 。

你可以试试,在滑动条拖拽 x 的效果。

Jan-14-2020-18-39-15.gif

y 值紧随你的拖动变化,对吧?

从这个简单的例子里,你可以看到 streamlit 响应用户的输入和输出是多么方便。

而且应用上的控件一直运行。你输入的变化,会实时带来输出的变化。

下面我们还是步入正题吧。先注释掉刚才这三条语句,免得碍事儿。

# x = st.slider("x")

# y = x + 3

# y

我们定义一个函数:

@st.cache

def load_data():

df = pd.read_csv("data.csv")

df = df

df.columns = ['event_type', 'time', 'county', 'lat', 'lon']

return df

如果你学过那篇《如何用 Python 和 Pandas 分析犯罪记录开放数据?》,里面的其他语句你应该都认得。无非就是 Pandas 读入我们的 CSV 数据之后,取其中的 5 个列,包括:

EVENT_TYPE : 事件类型;

CREATE_TIME: 事件创建时间;

COUNTY:事件发生位置所在郡名称;

LAT:事件发生位置的纬度;

LON:事件发生位置的经度

然后,我们把这几个列分别用小写的名称来命名。

值得一提的,是 @st.cache ,这是一个新玩意儿。

它是什么呢?

这在 Python 里面,叫做装饰器(decorator) 。其实这里没有什么魔法,它只是 streamlit 软件包里,一个预先定义的函数。

只不过这样写,相当于是你在自己的 load_data() 函数之外,又包裹了一个 st.cache() 函数的功能。每次执行的时候, st.cache() 都会参与进来。

st.cache() 这个函数做什么用呢?

那作用可太大了。

因为你每次更新代码,或者用户更新输入,整个儿 Python 脚本都相当于被重新执行了一遍。

而 st.cache() 装饰器可以告诉 Python :

查查看,我包裹的这个函数,内容或者输入改过没有?如果没有,就用已存储的上次调用结果好了,别再费事重新执行一遍了。

我们这里是从一个外部文件读入数据。就这样一个 300MB 的文件,每次读起来也得花上近 10 秒钟。更别说是那些上 GB 规模,甚至更大的文件了。

所以,如果 Streamlit 能够帮助我们跳过一些无意义的重复操作,将节省大量的用户等待时长。

不过这一步,你也看到了,输出没有变化。

因为我们什么也没有输出啊。

下面我们让 Python 实际读数据,并且把读后的数据框前 5 行用列表形式(st.table())展示给用户。

这一读数据不要紧,右上角会出现一个小人儿,做各种健身运动。

这就是告诉我们,程序在忙着呢。

忙完之后,这是结果:

下面我们要让程序给用户选项,首先是选择观察哪一种事件类型。

event_list = df["event_type"].unique()

event_type = st.sidebar.selectbox(

"Which kind of event do you want to explore?",

event_list

)

解释一下,第一句是在 event_type 里面寻找全部事件类型列表。

下面一段,采用了 st.sidebar.selectbox() 构造了一个左边栏里的下拉选择框。里面两个参数,第一个是显示给用户的提示语句,第二个,是选择列表内容。

问题是,我们存储了之后,好像什么也没有发生啊。

没关系,看到上图里面红色标出的这个箭头没有?

点击它,选项就出现了。

照葫芦画瓢,我们顺便把事件发生所在郡的下拉选择框一并做出来。

county_list = df["county"].unique()

county_name = st.sidebar.selectbox(

"Which county?",

county_list

)

这是效果:

然后,我们根据用户的输入做出反应,提示给用户经过他的选择,现在符合要求的行数还有多少。

part_df = df[(df["event_type"]==event_type) & (df['county']==county_name)]

st.write(f"根据你的筛选,数据包含{len(part_df)}行")

第一句里面用了个联合筛选,必须同时满足两个条件的数据,才会被保留在结果 part_df 中。

然后,我们把一个格式化后的字符串,用 st.write() 直接输出在网页上。

运行结果如下图所示。

Jan-14-2020-19-04-42.gif

好了,下面可能是你最关心的一刻了。

老师,别卖关子了,那张标示了事件位置的叠层地图怎么画啊?一共都没有多少行语句,你都讲了这么多了,怎么还没讲到?

请你输入下面这一行语句:

st.map(part_df)

然后保存。你就会看到下面的效果了。

是不是很惊讶?

我第一次用的时候,也是这感觉。

在 HackNTX 2018 编程马拉松竞赛中,我曾经找不同的编程高手学了若干种地理信息可视化的工具。每一种都得花上很多时间学习演练。

没想到,短短一年的时间,这样的功能居然可以用一行代码就实现了。

还是集成在 Web 应用里,可以发布给全球用户与合作者,进行展示。

不是我不明白,这世界变化快啊。

部署

我知道,你又开始着急了。

老师,这么好的东西,我可不想在本地一个人玩儿。我也想把结果发布到网络上,让别人看到我的成果。快告诉我怎么办!

别急。

咱们部署( deploy )一下它就行。

虽然你写了半天,只是 Python 脚本。但是 Streamlit 已经把它转换成了一个动态的 Web 应用。

所以,只要是常见的 Web 应用发布平台,理论上你都可以用来部署你的交互式数据分析作品。

这些平台,常见的包括:

EC2

Glitch

Heroku

这列表列下去就太多了。咱们这里只介绍 Heroku ,也就是前文给你展示的,样例使用的部署平台。

这东西的好处,就是基础款免费。

对咱们今天的教程来说,基础款就足够了。

你需要先到 Heroku 平台注册一个账号。

我这里起的名字,叫做 helloworld-streamlit 。

你可以根据自己的喜好,起名称。

之后我们就要部署了。

部署的步骤,在上图中,你可以参考。

注意,上图中,右上角的 Open App 按钮,就是你的应用链接地址,你可以把它记下来。

首先你需要准备一些配置文件。

全部的配置文件,我都给你展示在了前文介绍过的这个 github 项目中,你可以下载回来复用。

这里需要说明的是,几个不同配置文件的用途。

setup.sh 做一些初始设置,设定一些参数。

注意你将来用的时候,需要把其中标红的部分,替换成自己注册 heroku 时候的邮箱。

requirements.txt 告诉机器,需要安装哪些 Python 依赖包。

显然,教程这里需要的依赖包不多。

Procfile 是远端服务器上, Web 应用启动的时候,需要调用的脚本。其实里面只有一行。

请你下载,或者自行编辑上述 3 个文件后,与你的 Python 文件放在一个文件夹下面。

之后,请你到这里下载 heroku cli package。

下载后,根据提示安装即可。

进入终端。用 cd 命令切换到你的工作文件夹,也就是包含了你的 Python 脚本的目录。

输入:

heroku login

因为你已经在 setup.sh 中指定了自己的邮箱,所以这里会尝试直接用它来登录。

这时按任意键,会跳出一个浏览器窗口。

在浏览器中,点击确认即可登录。

看到上面的提示,证明登录成功了。

下面我们来设置 git ,这是推送我们文件和更新改动的途径。

在终端下执行:

git init

之后设置一下与远端的 heroku 服务器的连接:

heroku git:remote -a helloworld-streamlit

若是看到下图,证明成功了:

然后执行:

git add .

git commit -m "init"

再执行:

git push heroku master

这样就可以把全部内容推送到 heroku 了。

推送的第一步,是上传文件。

Heroku 发现咱们推送的是一个 Python App ,所以自动执行许多安装设置工作。

这些安装和配置做完后,会出现下面这样的提示。

到这里,你的 Web 应用部署就搞定了。

回到浏览器里,用下图中标红的这个按钮开启你自己的应用吧。

怎么样?

很有成就感吧?

思考

尝试过之后,你应该不难发现,Streamlit 给你带来了什么。

如果你学过 Javascript 和 Flask, Django 等 Web 应用开发技术,Streamlit 可以加快你的 Web 应用开发与测试进程。

如果你还没有学过上述技术, Streamlit 就可以给你赋能,让你一下子有了把数据分析结果变成产品的能力。

给你讲点儿更激进的。

有人已经希望能用它替代掉 Flask 用于产品发布了。

还有人说,将来写技术文档,也应该充分使用 Streamlit 。

甚至,还把它比作了数据科学界的 iPhone 。

这里,它是借喻 iPhone 开启智能手机时代,说明 Streamlit 的划时代性。

我不希望你也变得如此激进。

因为这里提到的每一种功用,现在还都有非常专业的工具做的更好,而且新的工具也在不断涌现。

例如说,我们在多个教程中一直使用 Jupyter Notebook 。

现在凭借 Voila 扩展的加持,你也可以很轻松地把 Jupyter Notebook 变成 Web app ,而且可以免费运行在 mybinder 上面。

但是,你可以看到,一个新的工具,以一种简单,而不是更繁复的办法,解决一个功能痛点,是一件多么令人欣喜的事儿。

看了这篇文章,可能会给你一种误解,似乎 JavaScript 为代表的前端编程技术,再也不需要学了。

其实不是这样的。

可以想象,开发门槛降低以后,将来会有更多的人使用 Python 来做 Web 应用。

用 Streamlit 这样的方法,他们只是开发出了一个原型。

要是想打造精品,就必须精细调控很多细节。

这时候, Javascript 是绕不过去的。

如果你精通 Javascript ,那你潜在的合作对象一下子就多了起来,你掌握的这门技术,也就有了更大的价值。

还记得吗?我不止一次给你强调过,协作网络更重要。忘了的话,记得复习《学 Python ,能提升你的竞争力吗?》。

这就好像印刷术的发明,不是让会写字这件事儿变得失去价值,而是全社会都增大了对好作品的渴求。深刻的思考,加上有效的文字表达,会让你生存得更好。

当然,如果你不希望精通写作技艺,只是想做一个抄书匠糊口。那么印刷术就可能会替代你的工作,结果就不那么美妙了。

小结

本文我为你介绍了 Streamlit ,它可以让你用 Python 脚本编写简洁实用的交互式 Web 应用。

通过学习本文,希望你掌握了以下知识点:

现在你有了一种选择,仅用纯 Python 做一个完整的交互式数据分析产品出来;

如何在读取数据等常用重复操作中,使用 st.cache 装饰器提升速度与效率;

如何使用滑动条、下拉框等基本组件;

如何在网页上输出文字、表格和图像;

如何把你本地构建和测试后的 Web 应用部署到 Heroku 上,以发布给你的合作者与客户。

咱们是以数据分析和可视化为例,进行了讲解。而且为了讲解的清晰,我们只介绍了 Streamlit 可实现功能的一小部分。但请注意,即便是目前, Streamlit 能帮你达成的目标,也远远不止于此。

希望你能够举一反三,用 Streamlit 做出令人惊艳的作品。也欢迎你把作品的链接在留言区分享给咱们的同学。

祝编程愉快!

读过本文,如果觉得有收获,请点赞。

要读更多的文章,微信关注我的公众号 “玉树芝兰”(nkwangshuyi)。别忘了加星标,以免错过新推送提示。

如果本文对你身边的亲友有帮助,也欢迎你把本文通过微博或朋友圈分享给他们。

延伸阅读

你可能也会对以下话题感兴趣。点击链接就可以查看。

题图:Photo by Luke Chesser on Unsplash

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值