Zeppelin-使用TuShare快速入门

Zeppelin是类似于Jupyter Notebook的Web数据分析工具,内置Spark引擎。这里结合TuShare、Requests、BS4的介绍其用法。这里以Docker中运行为例。

Zeppelin

这里介绍Zeppelin源码编译、容器构建、安装TuShare和图表呈现的步骤与方法。

1、编译Zeppelin源码

获得源码:

git clone https://github.com/openthings/docker-zeppelin

编译源码:

docker build -t zeppelinx .

输出的Docker容器为zeppelinx,可以输入 docker images查看。

2、运行Zeppelin服务

下一步启动容器:

docker run --name zeppelinx -p 9090:8080 -it zeppelinx

因为很多服务都使用了8080端口,这里我改成9090以避免冲突。 启动成功后,打开浏览器进入 http://localhost:9090 即可访问。

2.1 设置Python3

因为上述的Docker容器安装的python3,我们将python和pyspark的python解释器都设为python3。 在右上角选择interpreter,找到python项,选择“editor”,然后将zeppelin.python修改为python3。 如下所示:

zeppelin-python

2.2 安装支持库

以几个常用的库安装为例。 首先新建一个note,选择默认的Interpreter为shell。 在Paragraph中输入以下内容,然后按shift+enter执行:

pip install lxml
pip install pandas
pip install TuShare
pip install Requests
pip install beautifulsoup4

3、使用TuShare

3.1 创建数据获取函数

首先通过TuShare获取数据,返回格式为pandas.DataFrame。 在Zappelin中表格可以直接通过%table标签的字符串输出,显示为表格或统计图。示例格式为:

%table
name\tvalue\r
cell01\t10\r
cell02\t20

为了直接显示数据和趋势,可以将pandas转为table格式,转换函数如下:

%python
import tushare as ts
import pandas as pd

def get_hist(stock,ktypex,startx):
    
    df = ts.get_hist_data(code=stock,ktype=ktypex,start=startx)
    df = df.sort_index(ascending=True)
    
    a ="""%table\r date\t high\t low\r"""
    for idx in df.index:
        a = a + str(idx) + "\t" + str(df.ix[idx]['high']) + "\t" + str(df.ix[idx]['low']) + "\r"
    return (df,a)

返回的数据为元组,第一个参数为Pandas.DataFrame,第二个参数为转换后的%table字符串。

**注意:在最新的Zeppelin 0.8-snapshot版本中,%table的分行符改为了"\n","\r"不管用了。使用下面的函数: **

%python
import tushare as ts
import pandas as pd

def get_hist(stock,ktypex,startx):
    
    df = ts.get_hist_data(code=stock,ktype=ktypex,start=startx)
    df = df.sort_index(ascending=True)
    
    a ="""%table\n date\t high\t low\n"""
    for idx in df.index:
        a = a + str(idx) + "\t" + str(df.ix[idx]['high']) + "\t" + str(df.ix[idx]['low']) + "\n"
    return (df,a)

3.2 创建图表

调用get_hist得到数据,并可视化。

%python
df,adata = get_hist(stock='300036',ktypex='5',startx='2017-02-20')
print(adata)

结果如下:

Zeppelin

转载于:https://my.oschina.net/u/2306127/blog/847394

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
搭建流程如下: 1. 创建虚拟机模板机:先安装虚拟化软件,如VMware Workstation,然后安装一个操作系统,如CentOS,配置好环境和软件,最后将其保存为虚拟机模板机。 2. 创建分布式集群:使用虚拟机模板机创建多个虚拟机,每个虚拟机都要安装相同的操作系统和软件,配置好网络和主机名等信息。然后使用分布式集群软件,如Apache Hadoop,将这些虚拟机组成一个分布式集群。 3. 安装OpenResty:在分布式集群中选择一台虚拟机,安装OpenResty,配置好Nginx和Lua环境,实现高性能的Web应用开发。 4. 安装Hadoop:在分布式集群中选择一台虚拟机,安装Hadoop,配置好HDFS和MapReduce等组件,实现大规模数据的分布式存储和处理。 5. 安装Zookeeper:在分布式集群中选择一台虚拟机,安装Zookeeper,配置好ZAB协议,实现分布式应用程序协调服务。 6. 安装Flume:在分布式集群中选择一台虚拟机,安装Flume,配置好数据采集和传输管道,实现数据的收集和传输。 7. 安装Hive和MySQL:在分布式集群中选择一台虚拟机,安装Hive和MySQL,配置好元数据和数据存储,实现数据的查询和分析。 8. 安装Zeppelin:在分布式集群中选择一台虚拟机,安装Zeppelin,配置好可视化工具和数据源,实现数据的可视化和探索。 9. 安装DolphinScheduler:在分布式集群中选择一台虚拟机,安装DolphinScheduler,配置好任务调度和执行,实现自动化任务的执行和管理。 10. 安装SuperSet:在分布式集群中选择一台虚拟机,安装SuperSet,配置好可视化工具和数据源,实现数据的可视化和探索。 以上是搭建流程的大致步骤,具体实现过程需要根据实际情况进行配置和调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值