最近,国内涌现出了不少数据分析平台产品,例如 魔镜和数据观。
这些产品的目标应该都是self service的BI,利用可视化提供数据探索的功能,并且加入机器学习和预测的功能。它们对标的产品应该是Tableau或者SAP Lumira。因为笔者曾经为Lumira开发数据可视化的功能,对这一块很感兴趣,于是就试用了一下这些产品,感觉这些产品似乎还有很大的差距,于是就想自己用开源软件搭一个简单的数据分析平台试试看。
代码在这里 https://github.com/gangtao/dataplay2
废话少说,上架构图:
列一下主要用到的开源软件:
服务器端:flask http://flask.pocoo.org/轻量级的Python Web框架
pandas http://pandas.pydata.org/Python的数据结构和数据分析工具包,提供数据处理的Wrangling的功能
sklearn http://scikit-learn.org/非常流行的Python机器学习包,依赖于numpy,scipy和matplotlib
客户端:jquery这个就不用介绍了
reactjs http://facebook.github.io/react/facebook开发的js UI框架,基于组件(component)而非mvc
d3js https://d3js.org/数据驱动的DOM操纵库,可以创建丰富的数据可视化呈现。
echarts