- 博客(10)
- 资源 (5)
- 收藏
- 关注
原创 Hbase库亿级大数据性能测试
测试环境配置信息Ambari+HDP大数据平台,5个节点服务器CPU配置:16核 Intel 2.20GHz操作系统:CentOS7.7/Linux x86_64HDFS空间:4TBHDFS文件备份数:3节点Hbase MASTER和REGIONSERVERS各一个测试数据模型模拟某酒店顾客信息表1个列族,33列字段,目标数据量1亿+一、新增数据性能单条数据插入,平均不到250条/秒,每1000条需要4秒多,平均每条耗时4毫秒本地往服务器批量插入数据,平均在...
2020-08-24 15:44:13 4006
原创 macOS系统go语言开发环境搭建和Hello World简单示例
一、Go 安装包下载下载地址: https://studygolang.com/dl选择 macOS系统安装包进行下载:等待下载完成后,点击安装。默认安装路径:/usr/local/go二、配置环境变量1、打开终端输入cd ~进入用户主目录2、执行vi.bash_profile打开并编辑.bash_profile文件3、在文件末尾输入以下环境变量配置:exportGOPATH=/usr/local/goexport GOBIN=$GOPATH/binexpor..
2020-08-24 15:23:50 692
原创 HugeGraph图数据库构建红楼梦人物关系知识图谱实例
HugeGraph是一款易用、高效、通用的开源图数据库系统(Graph Database,GitHub项目地址), 实现了Apache TinkerPop3框架及完全兼容Gremlin查询语言, 具备完善的工具链组件,助力用户轻松构建基于图数据库之上的应用和产品。HugeGraph-Studio:HugeGraph-Studio是HugeGraph的Web可视化工具,可用于执行Gremlin语句及展示图。本文详细介绍在HugeGraph-Studio可视化界面上执行Gremlin语句构建红楼梦贾府人
2020-07-02 14:35:23 4246
原创 Apache Flink概念和术语汇总
【Unbounded stream】无界流有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件,例如事件发生的顺序,以便能够推断结果的完整性。【Bounded stream】有界流有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被.
2020-05-21 15:04:11 395
原创 Apache Atlas元数据血缘关系(Lineage)功能研究
一、生成血缘数据血缘关系数据通过Process生成,可以在数据导入时自动生成或通过RestAPI新增Process生成。1、sqoop同步自动生成血缘数据sqoop同步MySQL数据库数据到hive,同步成功后,通过sqoop的Atlas Hook自动生成血缘数据。sqoop将MySQL数据库所有表数据同步到hive仓库命令:sqoop import-all-tables --connect jdbc:mysql://192.168.1.1:3306/testdb --username.
2020-05-11 16:47:39 19169 8
原创 大数据ETL工具kettle与sqoop对比分析
sqoop有两个版本:sqoop1和sqoop2,sqoop2功能比sqoop强一些,但sqoop2产品不成熟,不适合生产环境使用,且CDH和Ambari HDP都默认集成sqoop1,所以不考虑sqoop2。本文仅比较kettle和sqoop1:对比项 Kettle Sqoop1 适用场景 数据ETL,简单或复杂的数据抽取、数据转换、数据清洗、数据过滤、数据同步。...
2020-04-21 19:51:15 9778
原创 CDH大数据平台集成Apache Ranger安全管理框架解决方案
总体解决方案 基于apache Ranger开源项目源代码进行二次开发,实现支持CDH集成的Ranger安全管理系统。另外需要在CDH管理界面上配置部分参数。 本文档经过测试验证的CDH和ranger版本:CDH版本:6.3.2Apache Ranger版本:2.0.0一、ranger插件公共模块agent-common修改1、配置文件处理问题描述:C...
2020-04-13 16:11:03 8341 35
原创 Apache Ranger安全区介绍
本文主要介绍大数据安全管理系统Apache Ranger的安全区Security Zone,根据官方文档人工翻译而来。介绍 Apache Ranger为很多Hadoop组件服务和非Hadoop服务提供授权和访问审计服务,比如HDFS, Hive, HBase, YARN, Kafka, Storm, Knox, Atlas, NiFi, Solr等。另外,Apache Ra...
2020-04-01 16:49:15 1588
原创 Apache Atlas数据治理开源项目源代码解析
Apache Atlas版本号:2.0.0从官方网站下载Apache Atlas2.0.0版本源代码,用开发工具(如IntelliJ IDEA)打开。根目录结构一、3party-licenses 第三方组件许可,可以看出Atlas主要用到的第三方技术组件,绝大部分是前端技术组件,janusgraph和titan是图数据库组件,JanusGraph是Titan的继承...
2020-03-26 14:33:25 6003 6
原创 kettle实现MySQL数据库向hive数据仓库大数据同步经验分享
一、同步性能测试1、测试环境信息kettle:版本8.2,carte独立部署,内存参数-Xms1024m -Xmx4096mmysql数据库:8核CPU,CPU主频2.20GHz,16G内存,版本号5.7.25大数据环境采用CDH,包含HDFS、hive等组件CDH集群服务器(共4台):8核CPU,CPU主频2.20GHz,16G内存,CDH版本5.14.42、性能测试结果...
2020-01-15 14:06:30 2868
基于HugeGraph图数据库的知识图谱培训.pptx
2020-08-17
Kettle基础培训.pptx
2019-08-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人