![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
liuxiangke0210
这个作者很懒,什么都没留下…
展开
-
分布式锁zookeeper面试
来源https://github.com/shishan100/Java-Interview-Advanced 面试题 zookeeper 都有哪些使用场景? 面试官心理分析 现在聊的 topic 是分布式系统,面试官跟你聊完了 dubbo 相关的一些问题之后,已经确认你对分布式服务框架/RPC框架基本都有一些认知了。那么他可能开始要跟你聊分布式相关的其它问题了。 分布式锁这个东西,很常用的,你做 Java 系统开发,分布式系统,可能会有一些场景会用到。最常用的分布式锁就是基于 zookeeper原创 2020-05-19 11:54:38 · 309 阅读 · 0 评论 -
Elasticsearch笔记五之java操作es
原文链接地址:https://blog.csdn.net/ty4315/article/details/52434296 es学习收藏:https://blog.csdn.net/ty4315/article/category/6367687 Java操作es集群步骤1:配置集群对象信息;2:创建客户端;3:查看集群信息 1:集群名称 默认集群名为elasticsearch,如...转载 2019-02-27 17:00:00 · 481 阅读 · 0 评论 -
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续
原文链接:http://lxw1234.com/archives/2016/07/703.htm整体架构数据采集离线计算实时计算多维分析OLAP机器学习Ad-Hoc查询数据可视化上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,大数据平台的架构也有所演进,本文简单介绍了架构更新的部分。整体架构数据采集对于关系型数据库以及部分NO...转载 2018-03-11 14:08:41 · 350 阅读 · 0 评论 -
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈
原文链接:http://lxw1234.com/archives/2015/08/471.htm整体架构数据采集数据存储与分析数据共享数据应用实时计算任务调度与监控元数据管理总结一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。先大概列一下互联网行业数据仓库、数据平台的用途:整合公司所有业务数据,建立统一的数据中心;提供各种报表,有给高层的,有给各个...转载 2018-03-11 13:42:58 · 296 阅读 · 0 评论 -
数据仓库之 ETL
原文链接:http://lxw1234.com/archives/2015/04/31.htm大多数据仓库的数据架构可以概括为:数据源–>ODS(操作型数据存储)–>DW–>DM(data mart)ETL贯穿其各个环节。 一、数据抽取:可以理解为是把源数据的数据抽取到ODS或者DW中。1. 源数据类型:关系型数据库,如Oracle,Mysql,Sqlserver等;文本文件,...转载 2018-03-11 11:48:03 · 542 阅读 · 0 评论 -
CDH5.X完全卸载步骤
文章链接:http://blog.csdn.net/wulantian/article/details/42706777 //CDH5.X完全卸载步骤 # by coco # 2015-01-14 1. 关闭集群中的所有服务。 这个可以通过clouder manger 主页关闭集群。 2. 卸载 [root@master ~]# /usr/share/cmf/uninsta转载 2017-02-13 11:02:05 · 267 阅读 · 0 评论 -
大数据组件简介
离线计算组件 1.1 hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。但是在转换为MapReduce的计算过程中,计算原创 2017-02-21 12:57:09 · 4431 阅读 · 0 评论 -
使用importtsv命令加载数据
原文: http://debugo.com/importtsv-load-data/?utm_source=tuicool&utm_medium=referral Bulkload是向HBase批量加载数据的方式,它会直接将数据进行准备和并加载成HFile,并直接讲文件插入到RegionServer中,这比通过一个MapReduce/Spark作业来加载性能高得多。详细的流程如下转载 2016-12-08 15:19:26 · 2986 阅读 · 2 评论 -
HBase ImportTsv导入数据
原文 : http://blog.csdn.net/wolf_soul/article/details/52174554 一、HBase介绍 HBase是Apache Hadoop中的一个子项目,依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的命令就可以看到HBase数据存储文件夹的目录结构,还可以通过Map/Reduce对HBase进行操作。HBa转载 2016-12-08 15:16:25 · 795 阅读 · 0 评论 -
hbase 数据export/import (No enum constant org.apache.hadoop.mapreduce.JobCounter.MB_MILLIS_MAPS)
来自:http://blog.csdn.net/abccheng/article/details/53066420 hadoop2.5.2 + Hbase 0.98的环境下, 在使用hbase 导出数据时候遇到了一个问题。在使用hbase提供的一些基于mapreduce job的工具的时候。都出报出一些问题。 比如下面两个工具 ./hbase org.apache.Hadoop.转载 2016-12-07 17:09:00 · 1230 阅读 · 0 评论 -
hbase配置、运行错误总结
一、执行$ hbase hbck 命令时,出现以下提示: Invalid maximum heap size: -Xmx4096m The specified size exceeds the maximum representable size. Error: Could not create the Java Virtual Machine. Error: A fatal ex转载 2016-12-04 22:00:06 · 2728 阅读 · 0 评论