大数据
文章平均质量分 66
大王go巡山
人生若只如初见
展开
-
2021-06-01
Apache Atlas引言当下金融行业场景丰富,如风控、智慧决策等不同种类的业务依赖于机器学习、深度学习等AI框架,算法人员在针对不同业务建模过程中,难免会遇到处理相同特征的情况。 如何在大量复杂特征中帮助算法和业务人员更清晰的了解元数据信息、理解特征之间的血缘关系,更快速地理解业务场景,构建算法模型成为了特征平台亟需解决的问题。基础概念Apache Atlas官网给出的定义十分明确”a scalable and extensible set of core foundational govern原创 2021-06-01 00:26:13 · 533 阅读 · 0 评论 -
docker安装和卸载
docker安装和卸载一、docker安装:1> 配置yum和docker仓库源(加速下载rpm包)mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bakcurl https://mirrors.aliyun.com/repo/Centos-7.repo >> /etc/yum.repos.d/CentOS-Base.repocurl https://mirrors.aliyun.co原创 2021-04-17 16:02:13 · 168 阅读 · 0 评论 -
jupyterlab支持spark和pyspark(跨集群)
引言:目前数据分析人员常用到jupyterlab来进行前期的数据探索,但纯净版只支持简单的python,不能满足数据分析人员的需求,如何为数据分析人员提供大数据集群下的数据访问就成了需要解决的问题。当前jupyter提供了一些官方kernel供用户使用,如最早的sparkmagic()和最近新的开源项目Apache Toree()都可以满足通过spark和pyspark方式对大数据集群数据的访问。对sparkmagic和toree调研分析后发现:sparkmagic:基于Apache livy实现原创 2021-03-15 00:02:10 · 1086 阅读 · 1 评论