自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (5)
  • 收藏
  • 关注

原创 Hbase库亿级大数据性能测试

测试环境配置信息Ambari+HDP大数据平台,5个节点服务器CPU配置:16核 Intel 2.20GHz操作系统:CentOS7.7/Linux x86_64HDFS空间:4TBHDFS文件备份数:3节点Hbase MASTER和REGIONSERVERS各一个测试数据模型模拟某酒店顾客信息表1个列族,33列字段,目标数据量1亿+一、新增数据性能单条数据插入,平均不到250条/秒,每1000条需要4秒多,平均每条耗时4毫秒本地往服务器批量插入数据,平均在...

2020-08-24 15:44:13 3786

原创 macOS系统go语言开发环境搭建和Hello World简单示例

一、Go 安装包下载下载地址: https://studygolang.com/dl选择 macOS系统安装包进行下载:等待下载完成后,点击安装。默认安装路径:/usr/local/go二、配置环境变量1、打开终端输入cd ~进入用户主目录2、执行vi.bash_profile打开并编辑.bash_profile文件3、在文件末尾输入以下环境变量配置:exportGOPATH=/usr/local/goexport GOBIN=$GOPATH/binexpor..

2020-08-24 15:23:50 681

原创 HugeGraph图数据库构建红楼梦人物关系知识图谱实例

HugeGraph是一款易用、高效、通用的开源图数据库系统(Graph Database,GitHub项目地址), 实现了Apache TinkerPop3框架及完全兼容Gremlin查询语言, 具备完善的工具链组件,助力用户轻松构建基于图数据库之上的应用和产品。HugeGraph-Studio:HugeGraph-Studio是HugeGraph的Web可视化工具,可用于执行Gremlin语句及展示图。本文详细介绍在HugeGraph-Studio可视化界面上执行Gremlin语句构建红楼梦贾府人

2020-07-02 14:35:23 4151

原创 Apache Flink概念和术语汇总

【Unbounded stream】无界流有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件,例如事件发生的顺序,以便能够推断结果的完整性。【Bounded stream】有界流有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被.

2020-05-21 15:04:11 377

原创 Apache Atlas元数据血缘关系(Lineage)功能研究

一、生成血缘数据血缘关系数据通过Process生成,可以在数据导入时自动生成或通过RestAPI新增Process生成。1、sqoop同步自动生成血缘数据sqoop同步MySQL数据库数据到hive,同步成功后,通过sqoop的Atlas Hook自动生成血缘数据。sqoop将MySQL数据库所有表数据同步到hive仓库命令:sqoop import-all-tables --connect jdbc:mysql://192.168.1.1:3306/testdb --username.

2020-05-11 16:47:39 18902 8

原创 大数据ETL工具kettle与sqoop对比分析

sqoop有两个版本:sqoop1和sqoop2,sqoop2功能比sqoop强一些,但sqoop2产品不成熟,不适合生产环境使用,且CDH和Ambari HDP都默认集成sqoop1,所以不考虑sqoop2。本文仅比较kettle和sqoop1:对比项 Kettle Sqoop1 适用场景 数据ETL,简单或复杂的数据抽取、数据转换、数据清洗、数据过滤、数据同步。...

2020-04-21 19:51:15 9629

原创 CDH大数据平台集成Apache Ranger安全管理框架解决方案

总体解决方案 基于apache Ranger开源项目源代码进行二次开发,实现支持CDH集成的Ranger安全管理系统。另外需要在CDH管理界面上配置部分参数。 本文档经过测试验证的CDH和ranger版本:CDH版本:6.3.2Apache Ranger版本:2.0.0一、ranger插件公共模块agent-common修改1、配置文件处理问题描述:C...

2020-04-13 16:11:03 8252 35

原创 Apache Ranger安全区介绍

本文主要介绍大数据安全管理系统Apache Ranger的安全区Security Zone,根据官方文档人工翻译而来。介绍 Apache Ranger为很多Hadoop组件服务和非Hadoop服务提供授权和访问审计服务,比如HDFS, Hive, HBase, YARN, Kafka, Storm, Knox, Atlas, NiFi, Solr等。另外,Apache Ra...

2020-04-01 16:49:15 1551

原创 Apache Atlas数据治理开源项目源代码解析

Apache Atlas版本号:2.0.0从官方网站下载Apache Atlas2.0.0版本源代码,用开发工具(如IntelliJ IDEA)打开。根目录结构一、3party-licenses 第三方组件许可,可以看出Atlas主要用到的第三方技术组件,绝大部分是前端技术组件,janusgraph和titan是图数据库组件,JanusGraph是Titan的继承...

2020-03-26 14:33:25 5915 6

原创 kettle实现MySQL数据库向hive数据仓库大数据同步经验分享

一、同步性能测试1、测试环境信息kettle:版本8.2,carte独立部署,内存参数-Xms1024m -Xmx4096mmysql数据库:8核CPU,CPU主频2.20GHz,16G内存,版本号5.7.25大数据环境采用CDH,包含HDFS、hive等组件CDH集群服务器(共4台):8核CPU,CPU主频2.20GHz,16G内存,CDH版本5.14.42、性能测试结果...

2020-01-15 14:06:30 2733

基于HugeGraph图数据库的知识图谱培训.pptx

本培训文档主要介绍图数据库、知识图谱、HugeGraph图数据库,以及基于HugeGraph图数据库构建知识图谱实例,重点介绍了图数据库和知识图谱的基本业务知识和应用场景。

2020-08-17

大数据平台安全培训.pptx

本培训文档主要介绍大数据平台安全管控措施,重点介绍Kerberos安全认证框架和Sentry安全授权组件

2020-03-04

Kettle基础培训.pptx

免费开源ETL工具kettle基础培训,主要包括kettle简单介绍、kettle简单部署和集群部署、spoon图形界面工具介绍、用法实例、常用集成方案、性能调优等。

2019-08-08

Redis性能优化培训.pptx

通过本培训文档快速掌握Redis性能优化,主要包含Redis性能数据指标,常见性能问题分析,性能优化方案等。

2019-08-08

LoadRunner教程

LoadRunner性能测试工具使用教程.

2009-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除