NiFi
离线数据、实时数据的分布式ETL工具。
支持本地文件、ftp、hdfs、数据库、hbase、es、hive、kafka等数据的in/out。
Streaming Analytics Manager
Storm实时数据处理。从kafka中消费avro数据,此数据可通过nifi接入,storm处理后写入druid、hbase、hdfs等。
Storm的processor包括aggregate、join、branch、pmml、projection、rule。
Schema Registry
- 定义kafka中avro数据格式。
Model Registry
- 注册机器学习模型PMML,可用于SAM实时预测。
Superset
数据展现工具。
支持的数据源:
database | pypi package | SQLAlchemy URI prefix |
---|---|---|
MySQL | pip install mysqlclient | mysql://、 mysql+pymysql:// |
Postgres | pip install psycopg2 | postgresql+psycopg2:// |
Presto | pip install pyhive | presto:// |
Oracle | pip install cx_Oracle | oracle:// |
sqlite | sqlite:// | |
Redshift | pip install sqlalchemy-redshift | redshift+psycopg2:// |
MSSQL | pip install pymssql | mssql:// |
Impala | pip install impyla | impala:// |
SparkSQL | pip install pyhive | jdbc+hive:// |
Greenplum | pip install psycopg2 | postgresql+psycopg2:// |