大数据
富的只剩下代码
富的只剩下代码
展开
-
10亿数据量的即席查询 spark 和 kylin的对比
数据量大约在10亿+,需要做一个即席查询,用户可以主动输入搜索条件,如时间。可提供一定的预处理时间。每天还有新数据加入。10亿+的数据对于普通的rdbms还是有些压力的,而且数据每天还在不停的增长,所以我们运用了我们的spark技术来做一个计算加速。关于增量更新的相关,我会在后续的博客中介绍。语句如下select count(*) a,b from table_a wher...转载 2019-11-07 09:55:10 · 686 阅读 · 0 评论 -
PB级海量数据服务平台架构设计实践
基于PB级海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论:作者:Yanjun基于PB级海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论:实践背景该数据服务...转载 2019-10-16 18:57:31 · 1231 阅读 · 0 评论 -
ambari-agent Controller.py:170 - Registering with localhost
最近在使用ambari安装大数据进群,在进行添加新主机时ambari-agent的日志中出现 Registering with localhost 导致在ambari-server的界面中出现Registering with server failed,后来经过在网上找了好多答案文能解决,特此将解决方法记录下。前提:新添加的主机已经和ambari-server已经做过了免密码登陆,并且通过ss...原创 2019-02-26 16:25:53 · 425 阅读 · 0 评论 -
开启Hive的本地模式
原文地址:https://blog.csdn.net/zyq11223/article/details/78846886先讲一个hive使用的一个小技巧。对于使用惯了oracle数据库的人来说,hive中没有dual啊,想验证一些函数的执行结果很是麻烦。比如我们在oracle数据库里面可以写select (1+2) from dual可以返回3。为了保证使用习惯,我们类似的在hive中...转载 2019-04-28 14:50:07 · 515 阅读 · 0 评论 -
Hive的三种Join方式
Hive中就是把Map,Reduce的Join拿过来,通过SQL来表示。参考链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsCommon/Shuffle/Reduce JoinReduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大,它会进行...转载 2019-04-28 14:51:55 · 283 阅读 · 0 评论 -
Hadoop集群之HDFS伪分布式安装 HA(二)
https://blog.csdn.net/q361239731/article/details/535596811、首先看看HA的对象是谁?主要解决的是NameNode的HA2、Datanode不需要HA吗?DataNode的HA是NameNode的checksize机制(主动复制)来解决的3、NameNode为什么需要HA?NameNode的2大功能:● 为客户端提供读写...转载 2019-04-28 19:47:12 · 171 阅读 · 0 评论 -
hadoop集群之YARN`s ResourceManager HA(三)
如果有看蒙圈的地方,请看下HDFS HA这篇文章官方给出的方案如下配置目标:node1 node2 node3:3台ZooKeepernode1 node2:为2台ResourceManager首先配置node1,配置etc/hadoop/yarn-site.xml:<property> <name>yarn.resourcemanager.h...转载 2019-04-28 19:48:15 · 244 阅读 · 0 评论 -
查看修复HDFS中丢失的块 &HDFS block丢失过多进入安全模式(safe mode)的解决方法
原文地址:https://blog.csdn.net/mnasd/article/details/82143653检测缺失块1 hdfs fsck -list-corruptfileblocks1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica查看上面某一个文件的情况1 hdfs fsck /path/to/corrupt/...转载 2019-04-28 20:14:27 · 1122 阅读 · 0 评论 -
hbase教程系列之--再谈HBase八大应用场景
原文地址:https://www.cnblogs.com/hbase-community/p/8629222.html再谈HBase八大应用场景HBase概述HBase是一个分布式存储、数据库引擎,可以支持千万的QPS、PB级别的存储,这些都已经在生产环境验证,并且在广大的公司已经验证。特别是阿里、小米、京东、滴滴内部都有数千、上万台的HBase集群。选择一个技术的首要条件是对齐大公司...转载 2019-04-28 21:13:07 · 212 阅读 · 0 评论 -
Hive面试问题1
A所有的hive任务都会有reducer的执行吗?答:不是,由于当前hive的优化,使得一般简单的任务不会去用reducer任务;只有稍微复杂的任务才会有reducer任务举例:使用select*fromperson;就不会有reducer使用frompersonpinsertintoperson2selec...转载 2019-04-29 14:39:24 · 306 阅读 · 0 评论 -
hbase教程系列之--Hbase常用Shell命令
文章链接:https://www.cnblogs.com/xing901022/p/6974178.htmlstatus 查看系统状态hbase(main):010:0> status1 active master, 0 backup masters, 4 servers, 0 dead, 6.5000 average loadversion 查看版本号hbase(ma...转载 2019-05-24 13:41:39 · 629 阅读 · 0 评论 -
Hadoop学习之路(二十三)MapReduce中的shuffle详解
https://www.cnblogs.com/qingyunzong/p/8615024.html讨论QQ:1586558083目录概述 MapReduce的Shuffle过程介绍 Spill过程 Sort Spill Merge Copy Merge Sort 正文回到顶部概述1、MapReduce 中,mapper 阶段处理的数据...转载 2019-05-25 14:06:46 · 333 阅读 · 1 评论 -
hadoop集群balance工具详解
https://blog.csdn.net/azhao_dn/article/details/7741666 在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。 1) hadoop balanc...转载 2019-01-04 15:12:04 · 212 阅读 · 0 评论 -
Ambari版本新特性
Ambari的最新版本是Ambari 2.7.3Ambari 2.7.0增加了以下功能:Ambari UI,Ambari Server和Ambari Agent已经过重大改造,可以更有效地处理大型集群管理 为了更有效地管理大型集群,已更新AMS架构,并且已改进了度量标准聚合。 更新了默认配置和配置建议,以确保AMS开箱即用。 添加了对轻松添加和管理新HDFS命名空间的支持。 添加了...原创 2019-01-03 16:23:34 · 1049 阅读 · 0 评论 -
Spark常见问题汇总
原文地址:https://my.oschina.net/tearsky/blog/629201摘要: 1、Operation category READ is not supported in state standby 2、配置spark.deploy.recoveryMode选项为ZOOKEEPER 3、多Master如何配置 4、No Space Left on the device...转载 2018-03-16 20:20:31 · 1072 阅读 · 0 评论 -
spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
https://blog.csdn.net/stark_summer/article/details/42981201问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合...转载 2018-05-19 21:16:37 · 370 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
https://blog.csdn.net/lw_ghy/article/details/51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,...转载 2018-05-19 21:22:14 · 136 阅读 · 0 评论 -
[ambari hdp]YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed
最近在使用ambari hdp 2.6.3版本,过程中提交spark程序时报如下错误:YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed exit code 1看了官方的解释,链接如下,大概意思是说你在提交spark任务时的contanier的内存总大小(每个excutor个数乘上每个excutor的...原创 2018-07-19 09:46:56 · 5590 阅读 · 0 评论 -
hbase windows 单机版安装
大数据开发工作中,有时候开发和测试集群独立安装在特定的网段中,有时候想在本机上进行基于hbase的测试而又不想连接到大数据集群上,这个时候就可以将hbase在windows上安装个单机版。1.环境:windows:jdk:1.8hbase:1.1.2hadoop:2.配置环境变量:JAVA_HOMEHADOOP_HOMEHBASE...原创 2018-08-16 17:02:40 · 7340 阅读 · 0 评论 -
开源大数据查询分析引擎
https://www.cnblogs.com/barrywxx/p/4257166.html开源大数据查询分析引擎引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。...转载 2018-08-31 19:30:47 · 1250 阅读 · 0 评论 -
实时查询引擎 - Facebook Presto 介绍与应用
http://www.cnblogs.com/hd-zg/p/6904727.html 1. Presto 是什么 Facebook presto是什么,继Facebook创建了HIVE神器后的又一以SQL语言作为接口的分布式实时查询引擎,可以对PB级的数据进行快速的交互式查询。它支持标准的ANSI SQL.包含查询,聚合,JOIN以及窗口函数等。除了Facebook这个创造都在使用...转载 2018-08-31 19:32:08 · 1295 阅读 · 0 评论 -
6大主流开源SQL引擎总结,遥遥领先的是谁?
http://36kr.com/p/5072307.html6大主流开源SQL引擎总结,遥遥领先的是谁?InfoQ技术媒体 • 2017-04-25 • 人工智能带你来了解主流的开源SQL引擎编者按:本文来自微信公众号“InfoQ”(ID:infoqchina),作者覃璐,编辑Tina;36氪经授权发布。根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学...转载 2018-08-31 19:38:30 · 4876 阅读 · 0 评论 -
快速了解Druid——实时大数据分析软件
https://www.cnblogs.com/broadview/p/6423673.htmlDruid 是什么 Druid 单词来源于西方古罗马的神话人物,中文常常翻译成德鲁伊。 本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统(Data Store)。美国广告技术公司MetaMarkets 于2011 年创建了Druid 项目,并且于2012 年晚期开源了Dru...转载 2018-08-31 19:40:28 · 1400 阅读 · 0 评论 -
搭建Spark所遇过的坑
https://www.cnblogs.com/qifengle-2446/p/6424377.html一.经验1.Spark Streaming包含三种计算模式:nonstate .stateful .window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的...转载 2018-09-19 09:58:24 · 538 阅读 · 0 评论 -
Spark方面的大牛博客地址收集!
http://blog.51cto.com/36006798/1872498Spark方面的大牛博客地址收集! 1、石山园 http://www.cnblogs.com/shishanyuan/ 2、段智华的博客 http://blog.csdn.net/duan_zhihua 3、西红柿炒土豆 http://blog.cs...转载 2018-10-25 16:56:29 · 250 阅读 · 0 评论 -
深入理解Apache Flink核心技术
作者:李呈祥 作者简介:Intel BigData Team软件工程师,主要关注大数据计算框架与SQL引擎的性能优化,Apache Hive Committer,Apache Flink Contributor。 责任编辑:仲浩(zhonghao@csdn.net) 文章来源:《程序员》2月期 版权声明:本文为《程序员》原创文章,未经允许不得转载,订阅2016年《程序员》请点击 h转载 2016-02-23 12:49:44 · 748 阅读 · 0 评论