自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

JustinMars的博客

专注于大数据和数据挖掘

  • 博客(19)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hadoop简介之望见数据湖

1 Hadoop概述随着信息化时代的来临,数据信息呈爆炸式增长。IBM的研究称,90%的人类文明数据是近两年产生的,而到了2020年,全球产生的数据量将是今天的44倍。传统的方法已难以应对越来越多的海量数据,因此海量数据的处理方法成为研究热点。大数据技术研究与应用推动互联网产业的快速发展,同时企业也促进了大数据技术的“新陈代谢”。在国外的计算机行业,Yahoo,Linkedin,Fackbook,eBay等企业都着手搭建Hadoop平台,努力推动Hadoop技术的发展并完善Hadoop项目。在国内,随着

2020-09-28 15:09:37 2684 2

原创 Greenplum安装时修改gpssh-exkeys中SSH免密登录端口

SSH免密登录的默认端口号为22,如果需要使用2226端口,可以修改如下地方298 def testAccess(hostname):299 '''300 Ensure the proper password-less access to the remote host.301 Using ssh here also allows discovery of remote host keys *not*302 reported by ssh-keyscan.303...

2020-09-08 14:13:29 3365 2

原创 HBase部署及架构设计原理

1 HBase概述1.1 HBase简介由Google发表的关于BigTable的论文启发,使得HBase成为了基于HDFS开发的、面向列的、可伸缩的、开源的分布式数据库,并且它提供了随机实时读写功能。HBase作为Hadoop生态系统中的结构化存储工具,HDFS为它提供了高可靠性的底层存储支持,Hadoop MapReduce为它提供了高性能的海量数据处理能力(如可以实现上亿条记录的毫秒级别的查询),Zookeeper作为协调工具为它提供了稳定服务和失败恢复机制。HBase具有以下特点。它弥补了Ha

2020-09-30 17:42:14 236

原创 Hive快速使用

1 Hive概述Hive是Hadoop的顶级项目之一,也是Hadoop生态系统中第一个SQL框架。它提供了一种数据查询的类SQL语言——Hive QL(HQL),并且通常被用来对历史数据进行挖掘与分析。然而,Hive本身不是一个引擎,而是利用MapReduce,Tez,Spark等引擎执行数据查询操作。另外,Hive的底层会将HQL语句解析成MapReduce作业交给Hadoop集群去处理,这样一来,有助于精通SQL但Java编程能力较弱的工程师去处理Hadoop中的海量数据。Hive本身不存储数据,而

2020-09-30 16:30:46 744

原创 Spark介绍(快速入门)

1 Spark概述1.1 Spark简介Apache Spark是一个基于内存的大数据并行处理框架,其最初由加州大学伯克利分校的AMP Lab实验室研发,现已是Apache基金会的顶级项目之一。Spark不仅提供了可扩展性、容错性、高性能的分布式数据处理,而且还提供了内存级的数据处理。Spark与Hadoop类似,但又与Hadoop的数据处理方式不同。例如Spark的中间结果并没有保存在HDFS中,而是存放在内存中;Spark简化了数据处理流程,从而避免了不必要的排序所带来的开销。此外,Hadoop仅

2020-09-30 14:53:18 309

原创 Greenplum调研报告

独立组件个数Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAuxwtaD-1601276710346)(http://brgit.ibr.cc/bigdata/public/-/raw/patch-1/OLAP_Research/Greenplum/imange/highlevel_arch.jpg)]Master是Greenplum数据库系统的入口,接受连接和SQL

2020-09-28 15:07:07 414

原创 Greenplum内存问题处理

错误java.sql.SQLException: [Pivotal][Greenplum JDBC Driver][Greenplum]Out of memory (seg1 slice3 *.*.3.245:6001 pid=27558). 原因内存不足错误消息表明Greenplum的Segment、主机和进程遇到了内存不足错误。提示:Greenplum数据库集群中,内存管理对性能有显著的影响。默认设置适合于大部分环境。不要更改默认设置,除非理解系统上的内存特点和使用。原因解决方案

2020-09-27 12:16:19 1774 1

原创 Linux+MySQL+Hive

第一步:安装从网上下载文件的wget命令[root@master ~]# yum -y install wget第二步:下载mysql的repo源[root@master ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm第三步:安装mysql-community-release-el7-5.noa...

2020-09-15 17:32:44 109

原创 Hadoop安全

本文主要介绍一下几种Hadoop安全工具:Apache Knox Gateway, Apache Sentry, Apache Argus, Apache Accumulo and Project Rhino.Apache Knox GatewayApacheKnoxGateway通过提供用于与Hadoop集群交互的RESTAPI网关,在Hadoop与其他组件(服务)之间创建了一个安全边界。Knox网关可以控制和调节所有与Hadoop的通信,Knox具有以下特征:LDAP(轻型目录访问协议)和Acti

2020-09-15 17:31:59 240

原创 Greenplum原理及其简介

Greenplum介绍组织架构Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。Greenplum数据库通过将数据和处理负载分布在多个服务器或者主机上来存储和处理大量的数据。Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。

2020-09-15 17:25:37 1198

原创 Greenplum及其web安装

一,安装说明1.1环境说明*名称**版本*操作系统CentOS 7.6 64bitgreenplumgreenplum-db-6.10.1-rhel7-x86_64.rpm1.2集群介绍IPhostname集群节点192.168.3.244gpmastermaster192.168.3.245gpsegment1segment192.168.3.246gpsegment2segment二,安装环境准备2.1 修改

2020-09-15 17:13:34 428

原创 greenplum web界面不显示监控数据

如下所示在master的postgresql.conf文件(如/opt/greenplum/data/master/gpseg-1)中添加如下信息gpcc.enable_send_query_info=ongpcc.query_metrics_port=9898关闭greenplum。命令为gpstop -r然后重启 gpstart -a关闭web服务 gpcc stop开启服务 gpcc start重新打开网址...

2020-09-10 12:38:32 433

原创 Greenplum安装时使用不了gpssh-exkeys

Greenplum安装过程中,使用gpssh-exkeys错误解决方案:1. 切换至gpadmin用户(自创建)2. 执行如下命令source /usr/local/greenplum-db/greenplum_path.sh执行结果如下所示

2020-09-08 14:06:52 3467

原创 青鸟

风回到那个它可以放肆的季节,鸟却走不出幸福的牢笼。山回到那个它可以灵动的地方,鸟却飞不出困惑的天空。国家到了那惊心动魄的时侯,鸟再也没有了奋斗的念头。是谁埋没了鸟的才干,又是谁击碎了它的梦想,伯乐去哪里了?那时天空还是蓝的,树木还是绿的,现在却连那陪着自己的羽毛都变白了。鸟的天国哪里去了,鸟的梦里还有情吗?你能回到当初的那个你吗?灯依旧在那高高的灯塔上熠熠生辉,鸟却看不到它的光芒。你是要飞到哪里啊?不要再远航了,这里就是你的归宿,你飞远了,就真的回不来了,哪怕地球是圆的。你的傲慢哪里去了,你

2020-09-02 15:33:05 299

原创 看透世间变化之《那狗》

流浪流浪啊孤独地流浪在世间的某个角落我看见了你你遇见了我而这只是个美丽的意外炙热的激情在唇齿间流淌这短暂的擦肩而过却剥夺了我一生最美丽的回忆那时的海誓山盟也只不过是过眼云烟背叛了爱情辜负了青春打破了宁静喧嚣了世界当泪水已枯竭幻化成汪洋大海你一失足便跌入了这浩瀚犬吠声响彻万里星空当我的容貌里烙上了你的模样我便成了你你失去了自己你就是那地鼠我是手中的锤见你一次打你一次在你人生的道路上,我成了你的羁绊...

2020-09-02 15:25:34 193 1

原创 满池塘的树

在泰山脚下有一片静谧的森林,当慵懒的阳光照耀着这片绿色的“部队”的时候,总会散发出沁人心脾的幽香,犹如清澈见底的湖水。然而,一切的美好总不会风平浪静,不和谐的音符就会跃然纸上。安逸的生活往往会被不安分守己的事物打破,世界处处存在着不公平,没有谁能遏制住这残羹冷炙的铜臭味。昉生活在看似天堂的世界,却在世界的角落里被遗忘,繁华世界的喧嚣唯独突出他孤寂的身影。漫天飞舞的阳光得不到一丝一缕的温暖,虽然不远处有百丈长的瀑布,却吮吸不到一滴甘露,身边覆盖了堆砌了像城墙一般的积叶。貌合神离的上天似乎从来没有眷顾过这个可

2020-09-02 15:22:44 151

原创 冬日呓语

北风潇潇贴骨寒,残雪飘飘入窗摇。 枝头早已无清鸣,满庭蚕丝暮成被。

2020-09-02 15:16:58 198 1

转载 Greenplum的数据分布与倾斜

Greenplum的分布与倾斜Greenplum数据库依赖于跨节点的均匀数据分布。在MPP无共享环境中,查询的总体响应时间由所有节点的完成时间来度量。 系统只能与最慢的节点一样快。 如果数据偏斜,具有更多数据的节点将花费更多时间来完成,因此每个节点必须具有大致相等的行数并执行大致相同的处理量。 如果一个节点具有比其他节点更多的处理数据,则可能导致性能不佳和内存不足。大表做连接操作时,最佳分布至关重要。 要执行连接,匹配的行必须位于同一节点上。 如果数据未在同一连接列上分发,则其中一个表所需的行将动态重

2020-09-02 14:50:14 2280

转载 关于Greenplum的架构

Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。 Greenplum使用这种高性能系统架构来分布数T字节数据仓库的负载并且能够使用系统的所有资源并行处理一个查询。Greenplum数据库是基于PostgreSQL开源技术的。它本质上是多个PostgreSQL面向磁盘的数据库

2020-09-02 14:17:21 478

详细解读DreamFusion:利用2D扩散实现文本到3D的转换 论文文档

详细解读DreamFusion:利用2D扩散实现文本到3D的转换 论文文档

2024-04-26

apache seatunnel支持hive jdbc

apache seatunnel支持hive jdbc

2023-10-30

鲸鱼优化算法(Whale Optimization Algorithm,WOA)剖析

鲸鱼优化算法(Whale Optimization Algorithm,WOA)剖析

2023-10-25

ubuntod安装datasophon问题记录

chkconfig命令

2023-10-10

Clickhouse调研

Clickhouse调研

2023-08-03

读取Excel多个Sheet数据(Java code)

Java实现读取Excel多个Sheet数据 测试

2023-08-01

seatunnel 支持hive jdbc

source { Jdbc { url = "jdbc:hive2://111.11.11.11:10000/ods_wjw" driver = "org.apache.hive.jdbc.HiveDriver" user = "hive" password = "hive" table = ods_wjw_jb_gxy_hz_glk query = "select a,b,c from ods_wjw_jb_gxy_hz_glk" fetch_size = 300 } }

2023-07-28

gbase免费安装包,8.6.2

gbase免费安装包,8.6.2

2023-06-06

gbase免费安装包以及驱动

gbase免费安装包以及驱动

2023-06-06

dataCollection安装jar包0.07版本

dataCollection项目在kettle基础开发的可视化任务调度系统,提供简单易用的操作界面,降低用户使用crontab调度的学习成本,缩短任务配置时间,避免配置过程中出错。系统对接webSpoon,支持在线编辑kettle脚本,通过数据整合功能,可同步资源库中已有的脚本,用户在创建完脚本之后,可通过系统任务管理,创建数据同步任务。

2023-01-16

hbase-manager安装包,已编译

部署网站https://gitee.com/weixiaotome/hbase-manager#1-%E5%B9%B3%E5%8F%B0%E7%AE%80%E4%BB%8B HBaseManager功能列表 namespace管理:包括namespace的创建、删除 HBase表管理:表创建、预分区建表(内置三种预分区方案)、表删除、表信息更改、表清空 列簇管理:列簇新增、删除、属性修改 标签管理:HBase表的标签管理 数据管理:HBase表数据的查询、新增、删除。 多集群管理:多集群切换。 监控功能:后续可能会考虑增加丰富的监控功能,以期待代替HBase本身的监控界面 WebShell:基于Web的HBase Shell (规划中) HQL: 以SQL的方式读写HBase集群中的数据 请求热点监控:集成hbase-hbtop的功能,图表展示RegionServer/Region/namespace/table的实时请求量 更多功能:......

2022-11-14

hbase-sdk的jar包

hbase-manager项目编译所需

2022-11-14

hbase-sdk的jar包

hbase-manager编译需要 如果你的HBase版本是1.x,可以使用这个jar包

2022-11-14

Poseidon波塞冬日志搜索平台文档

可以看看

2022-10-10

flink-shaded-hadoop-2-uber-3.0.0-9.0.jar

Flink sink cdh6.2 hadoop3.0.0 jar包

2021-04-16

数独android

3G千锋android游戏数独可运行,按照视频并解决问题

2014-08-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除