- 博客(19)
- 资源 (2)
- 收藏
- 关注

原创 Hadoop简介之望见数据湖
1 Hadoop概述随着信息化时代的来临,数据信息呈爆炸式增长。IBM的研究称,90%的人类文明数据是近两年产生的,而到了2020年,全球产生的数据量将是今天的44倍。传统的方法已难以应对越来越多的海量数据,因此海量数据的处理方法成为研究热点。大数据技术研究与应用推动互联网产业的快速发展,同时企业也促进了大数据技术的“新陈代谢”。在国外的计算机行业,Yahoo,Linkedin,Fackbook,eBay等企业都着手搭建Hadoop平台,努力推动Hadoop技术的发展并完善Hadoop项目。在国内,随着
2020-09-28 15:09:37
2684
2

原创 Greenplum安装时修改gpssh-exkeys中SSH免密登录端口
SSH免密登录的默认端口号为22,如果需要使用2226端口,可以修改如下地方298 def testAccess(hostname):299 '''300 Ensure the proper password-less access to the remote host.301 Using ssh here also allows discovery of remote host keys *not*302 reported by ssh-keyscan.303...
2020-09-08 14:13:29
3365
2
原创 HBase部署及架构设计原理
1 HBase概述1.1 HBase简介由Google发表的关于BigTable的论文启发,使得HBase成为了基于HDFS开发的、面向列的、可伸缩的、开源的分布式数据库,并且它提供了随机实时读写功能。HBase作为Hadoop生态系统中的结构化存储工具,HDFS为它提供了高可靠性的底层存储支持,Hadoop MapReduce为它提供了高性能的海量数据处理能力(如可以实现上亿条记录的毫秒级别的查询),Zookeeper作为协调工具为它提供了稳定服务和失败恢复机制。HBase具有以下特点。它弥补了Ha
2020-09-30 17:42:14
236
原创 Hive快速使用
1 Hive概述Hive是Hadoop的顶级项目之一,也是Hadoop生态系统中第一个SQL框架。它提供了一种数据查询的类SQL语言——Hive QL(HQL),并且通常被用来对历史数据进行挖掘与分析。然而,Hive本身不是一个引擎,而是利用MapReduce,Tez,Spark等引擎执行数据查询操作。另外,Hive的底层会将HQL语句解析成MapReduce作业交给Hadoop集群去处理,这样一来,有助于精通SQL但Java编程能力较弱的工程师去处理Hadoop中的海量数据。Hive本身不存储数据,而
2020-09-30 16:30:46
744
原创 Spark介绍(快速入门)
1 Spark概述1.1 Spark简介Apache Spark是一个基于内存的大数据并行处理框架,其最初由加州大学伯克利分校的AMP Lab实验室研发,现已是Apache基金会的顶级项目之一。Spark不仅提供了可扩展性、容错性、高性能的分布式数据处理,而且还提供了内存级的数据处理。Spark与Hadoop类似,但又与Hadoop的数据处理方式不同。例如Spark的中间结果并没有保存在HDFS中,而是存放在内存中;Spark简化了数据处理流程,从而避免了不必要的排序所带来的开销。此外,Hadoop仅
2020-09-30 14:53:18
309
原创 Greenplum调研报告
独立组件个数Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAuxwtaD-1601276710346)(http://brgit.ibr.cc/bigdata/public/-/raw/patch-1/OLAP_Research/Greenplum/imange/highlevel_arch.jpg)]Master是Greenplum数据库系统的入口,接受连接和SQL
2020-09-28 15:07:07
414
原创 Greenplum内存问题处理
错误java.sql.SQLException: [Pivotal][Greenplum JDBC Driver][Greenplum]Out of memory (seg1 slice3 *.*.3.245:6001 pid=27558). 原因内存不足错误消息表明Greenplum的Segment、主机和进程遇到了内存不足错误。提示:Greenplum数据库集群中,内存管理对性能有显著的影响。默认设置适合于大部分环境。不要更改默认设置,除非理解系统上的内存特点和使用。原因解决方案
2020-09-27 12:16:19
1774
1
原创 Linux+MySQL+Hive
第一步:安装从网上下载文件的wget命令[root@master ~]# yum -y install wget第二步:下载mysql的repo源[root@master ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm第三步:安装mysql-community-release-el7-5.noa...
2020-09-15 17:32:44
109
原创 Hadoop安全
本文主要介绍一下几种Hadoop安全工具:Apache Knox Gateway, Apache Sentry, Apache Argus, Apache Accumulo and Project Rhino.Apache Knox GatewayApacheKnoxGateway通过提供用于与Hadoop集群交互的RESTAPI网关,在Hadoop与其他组件(服务)之间创建了一个安全边界。Knox网关可以控制和调节所有与Hadoop的通信,Knox具有以下特征:LDAP(轻型目录访问协议)和Acti
2020-09-15 17:31:59
240
原创 Greenplum原理及其简介
Greenplum介绍组织架构Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。Greenplum数据库通过将数据和处理负载分布在多个服务器或者主机上来存储和处理大量的数据。Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。
2020-09-15 17:25:37
1198
原创 Greenplum及其web安装
一,安装说明1.1环境说明*名称**版本*操作系统CentOS 7.6 64bitgreenplumgreenplum-db-6.10.1-rhel7-x86_64.rpm1.2集群介绍IPhostname集群节点192.168.3.244gpmastermaster192.168.3.245gpsegment1segment192.168.3.246gpsegment2segment二,安装环境准备2.1 修改
2020-09-15 17:13:34
428
原创 greenplum web界面不显示监控数据
如下所示在master的postgresql.conf文件(如/opt/greenplum/data/master/gpseg-1)中添加如下信息gpcc.enable_send_query_info=ongpcc.query_metrics_port=9898关闭greenplum。命令为gpstop -r然后重启 gpstart -a关闭web服务 gpcc stop开启服务 gpcc start重新打开网址...
2020-09-10 12:38:32
433
原创 Greenplum安装时使用不了gpssh-exkeys
Greenplum安装过程中,使用gpssh-exkeys错误解决方案:1. 切换至gpadmin用户(自创建)2. 执行如下命令source /usr/local/greenplum-db/greenplum_path.sh执行结果如下所示
2020-09-08 14:06:52
3467
原创 青鸟
风回到那个它可以放肆的季节,鸟却走不出幸福的牢笼。山回到那个它可以灵动的地方,鸟却飞不出困惑的天空。国家到了那惊心动魄的时侯,鸟再也没有了奋斗的念头。是谁埋没了鸟的才干,又是谁击碎了它的梦想,伯乐去哪里了?那时天空还是蓝的,树木还是绿的,现在却连那陪着自己的羽毛都变白了。鸟的天国哪里去了,鸟的梦里还有情吗?你能回到当初的那个你吗?灯依旧在那高高的灯塔上熠熠生辉,鸟却看不到它的光芒。你是要飞到哪里啊?不要再远航了,这里就是你的归宿,你飞远了,就真的回不来了,哪怕地球是圆的。你的傲慢哪里去了,你
2020-09-02 15:33:05
299
原创 看透世间变化之《那狗》
流浪流浪啊孤独地流浪在世间的某个角落我看见了你你遇见了我而这只是个美丽的意外炙热的激情在唇齿间流淌这短暂的擦肩而过却剥夺了我一生最美丽的回忆那时的海誓山盟也只不过是过眼云烟背叛了爱情辜负了青春打破了宁静喧嚣了世界当泪水已枯竭幻化成汪洋大海你一失足便跌入了这浩瀚犬吠声响彻万里星空当我的容貌里烙上了你的模样我便成了你你失去了自己你就是那地鼠我是手中的锤见你一次打你一次在你人生的道路上,我成了你的羁绊...
2020-09-02 15:25:34
193
1
原创 满池塘的树
在泰山脚下有一片静谧的森林,当慵懒的阳光照耀着这片绿色的“部队”的时候,总会散发出沁人心脾的幽香,犹如清澈见底的湖水。然而,一切的美好总不会风平浪静,不和谐的音符就会跃然纸上。安逸的生活往往会被不安分守己的事物打破,世界处处存在着不公平,没有谁能遏制住这残羹冷炙的铜臭味。昉生活在看似天堂的世界,却在世界的角落里被遗忘,繁华世界的喧嚣唯独突出他孤寂的身影。漫天飞舞的阳光得不到一丝一缕的温暖,虽然不远处有百丈长的瀑布,却吮吸不到一滴甘露,身边覆盖了堆砌了像城墙一般的积叶。貌合神离的上天似乎从来没有眷顾过这个可
2020-09-02 15:22:44
151
转载 Greenplum的数据分布与倾斜
Greenplum的分布与倾斜Greenplum数据库依赖于跨节点的均匀数据分布。在MPP无共享环境中,查询的总体响应时间由所有节点的完成时间来度量。 系统只能与最慢的节点一样快。 如果数据偏斜,具有更多数据的节点将花费更多时间来完成,因此每个节点必须具有大致相等的行数并执行大致相同的处理量。 如果一个节点具有比其他节点更多的处理数据,则可能导致性能不佳和内存不足。大表做连接操作时,最佳分布至关重要。 要执行连接,匹配的行必须位于同一节点上。 如果数据未在同一连接列上分发,则其中一个表所需的行将动态重
2020-09-02 14:50:14
2280
转载 关于Greenplum的架构
Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。 Greenplum使用这种高性能系统架构来分布数T字节数据仓库的负载并且能够使用系统的所有资源并行处理一个查询。Greenplum数据库是基于PostgreSQL开源技术的。它本质上是多个PostgreSQL面向磁盘的数据库
2020-09-02 14:17:21
478
seatunnel 支持hive jdbc
2023-07-28
dataCollection安装jar包0.07版本
2023-01-16
hbase-manager安装包,已编译
2022-11-14
大数据之湖仓一体,未来如何发展
2024-04-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人