大数据
唐予之_
Java Scala Hadoop Spark Hive Kafka
展开
-
Alluxio、Presto 集成Kerberos
一、Kerberos安装与配置kerberos简介:Kerberos 是一个安全的网络认证协议,支持客户端和服务端不需要在网络上传输密码就可以进行认证。Kerberos 采用通过对称加密算法生成时间敏感的票据。在安全范式中Kerberos 的三个脑袋是指:尝试认证的用户是谁。客户端要认证哪个服务。Kerberos 安全服务中心作为密钥分发中心(Key Distribution Cent...原创 2019-11-30 16:41:55 · 1262 阅读 · 0 评论 -
遇到的Spark的坑
spark 写入hive出错。 mysql驱动版本低。https://datameer.zendesk.com/hc/en-us/articles/204262140-Hive-Jobs-Fail-with-com-mysql-jdbc-exceptions-MySQLSyntaxErrorExceptionspark写入Hive找不到表16/12/21 17:57:36 INFO SparkSql原创 2017-02-21 19:17:54 · 7037 阅读 · 0 评论 -
Hive学习笔记
1.增增数据库 增table(内部表,外部表) 增列 增分区2.删删库 删表 删列 删分区3.改改库名 改表名 改列名 改分区名4.查查有哪些库 查有哪些表 查表结构5.导(注意,如果创建的内部表的话,会把hdfs上的csv文件移动到相应的位置)导入本地(hdfs)csv 到hive 匹配导入 导入csv到hive的某几个列,某个分区。hive:hdfs: load da原创 2017-02-22 10:07:16 · 1113 阅读 · 0 评论 -
Spark集群安装之——Zookeeper+Kafka 安装教程
1、安装和配置Zookeeper1) 下载Zookeeper进入http://www.apache.org/dyn/closer.cgi/zookeeper/,你可以选择其他镜像网址去下载,用官网推荐的镜像:http://mirror.bit.edu.cn/apache/zookeeper/下载zookeeper-3.4.6.tar.gz2) 安装Zookeeper提示:下面的步骤发生在Ma原创 2016-05-16 17:20:46 · 1612 阅读 · 0 评论 -
Flink DataSet API 使用示范
DataSet API 编程示范package com.dtwave.flink.exampleimport org.apache.flink.api.common.functions._import org.apache.flink.api.common.operators.Orderimport org.apache.flink.api.common.operators.base.原创 2017-11-30 00:00:34 · 5919 阅读 · 0 评论 -
shuffle 调优之原理概述
一、什么情况下会发生Shuffle?在spark中,主要是以下几个算子:groupByKey reduceByKeyreduceByKeyJoin二、什么是shuffle?groupByKey,要把分布在集群各个节点上的数据中的同一个key,对应的values,都给集中到一块儿,集中到集群中同一个节点上,更严密一点说,就是集中到一个节点的一个executor的一个task中。然后呢,集中一原创 2017-12-23 16:03:51 · 775 阅读 · 0 评论 -
shuffle 调优之合并map端的输出
Shuffle 情景描述:每个Executor 有2个 cpu core 4个task。 task是线程执行的。2个core ,4个task的话,就要先并行执行2个task,再跑另外2个task。 第一个stage,每个task,都会给第二个stage的每个task创建一份map端的输出文件 第二个stage,每个task,会到各个节点上面去,拉取第一个stage每个task输出的,属于自己的原创 2017-12-23 16:15:04 · 614 阅读 · 0 评论 -
shuffle 调优之条件map端内存缓存与reduce端内存占比
spark.shuffle.file.buffer,默认32k spark.shuffle.memoryFraction,0.2map端内存缓冲,reduce端内存占比;很多资料、网上视频,都会说,这两个参数,是调节shuffle性能的不二选择,很有效果的样子, 实际上,不是这样的。以实际的生产经验来说,这两个参数没有那么重要,往往来说,shuffle的性能不是因为这方面的原因导致的但是,有一点原创 2017-12-23 16:19:21 · 1085 阅读 · 0 评论 -
Shuffle 调优之 HashShuffleManager 和 SortShuffleManager
spark.shuffle.manager:hash、sort、tungsten-sort(自己实现内存管理)spark.shuffle.sort.bypassMergeThreshold:200spark 1.2.x版本以后,默认的shuffle manager,是什么呢? SortShuffleManager。SortShuffleManager与HashShuffleManager两点不同原创 2017-12-23 16:25:27 · 1742 阅读 · 0 评论 -
本地调试(local debug)Hive源码
本地调试(local debug)本次调试本为了修改HiveServer2 以提供授权校验接口,因此下了Hive源码 准备调试一番。主要测试了CliDriver和HiveServer2.主要流程参考了这篇文文章的实现:http://b865a395.wiz03.com/share/s/2Upqel3Vs45O2q1eTZ1wyr_O0urkGT29lAco2pq2Ol26_NM3 在此篇文章对细节原创 2018-01-17 20:30:54 · 2613 阅读 · 0 评论 -
carbonData使用文档
一、部署下载源码编译mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean packagemvn -DskipTests -Pspark-2.2 -Dspark.version=2.2.1 clean package修改配置文件二、启动:spark-shell --jars carbonlib/carbondata_2.11-1.1.1-sh...原创 2018-02-09 10:42:02 · 1585 阅读 · 1 评论 -
【思维导图】Parquet Orc CarbonData 三种列式存储格式对比
Parquet Orc CarbonData三种存储格式对比原创 2018-06-20 23:50:59 · 3283 阅读 · 0 评论 -
Hive 中文分区 展示 乱码 注释乱码问题
遇到神一样的客户,遇到神一样的问题,用神一样的脚本来解决。神问题:1.要求分区名是中文 例如 dt=今天/city=杭州插入不进去:2.Select * from table 时,展示乱码例如:hive> > select * from test_table_xuehuan13;OK工作流目录 ?????可见这里本来两个都是中文结果分区字段显示...原创 2018-07-06 17:15:40 · 4344 阅读 · 0 评论 -
遇到的Hive的坑
hive CLI 启动错误hive CLI启动时报错:(hadoop-2.5.2 + HIVE 1.1.0)root@ubuntu:/hadoop-2.5.2/etc/hadoop# hiveLogging initialized using configuration in jar:file:/hive/apache-hive-1.1.0-bin/lib/hive-common-1.1.0.jar原创 2017-02-21 19:13:58 · 948 阅读 · 0 评论 -
Hive SQL的编译过程
Hive SQL的编译过程木叶丸 ·2014-02-12 17:30Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询转载 2017-01-21 14:21:06 · 741 阅读 · 0 评论 -
最近经历的一些大数据(Spark/Hadoop)面试题
公司A:1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。4.shuffle 是什么? 怎么调优?5.项目用什么语言写? Scala? Scala的特点? 和Java的区别?6.理论基础怎么样,比如数据结构,里面的原创 2017-01-18 11:12:36 · 45387 阅读 · 20 评论 -
Spark大数据常见错误分享总结(来自苏宁)
Spark trouble shooting 经验分享 错误总结原创 2016-08-30 11:28:29 · 2437 阅读 · 0 评论 -
Spark二次排序学习总结
二次排序Spark二次排序,即组装一个新的key并在这个key里实现排序接口所定义的方法。例如一组数据:(点击次数,下单次数,支付次数) A:(30,35,40) B:(35,35,40) C:(30,38,40) D:(35,35,45)需要分别对点击次数,下单次数,支付次数做比较。比较完35【点击次数】相等,则要对【下单次数】二次比较,若【下单次数】还是相等,则要对【支付次数再次比较】直原创 2016-08-17 22:03:35 · 786 阅读 · 0 评论 -
Spark自定义累加器的实现
1.为什么要使用自定义累加器前文讲解过spark累加器的简单使用:http://blog.csdn.net/lxhandlbb/article/details/51931713但是若业务较为复杂,需要使用多个广播变量时,就会使得程序变得非常复杂,不便于扩展维护,因此可以考虑自定义累加器。2.怎么使用自定义累加器Java版本:package com.luoxuehuan.sparkproject.sp原创 2016-08-08 00:22:21 · 8594 阅读 · 1 评论 -
Spark入门之WordCount
package com.coreimport org.apache.spark.{SparkConf, SparkContext}/** * Created by lxh on 2016/3/14. * 查看源码快捷键:CTRL + N * */object WordCount { def main(args: Array[String]) { val conf =原创 2016-07-17 13:03:07 · 642 阅读 · 0 评论 -
Spark RDD的理解
1.RDD是什么?RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而原创 2016-06-16 13:31:25 · 1451 阅读 · 0 评论 -
Spark on Yarn运行测试
1.启动hdfs: root@Master:/usr/local/hadoop/hadoop-2.6.0/sbin# ./start-dfs.sh 检查: root@Master:/usr/local/hadoop/hadoop-2.6.0/sbin# jps3026 NameNode3366 Jps3240 SecondaryNameNode2.启动yarn:root@Maste原创 2016-05-24 16:00:28 · 2510 阅读 · 0 评论 -
Spark名词解释
名词解释:1. Standalone模式下存在的角色。【Client】:客户端进程,负责提交作业到Master。【Master】:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。【Worker】:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Ma原创 2016-05-09 15:00:28 · 748 阅读 · 0 评论 -
Spark Streaming开发入门——WordCount(Java&Scala)
一、Java方式开发1、开发前准备假定您以搭建好了Spark集群。2、开发环境采用eclipse maven工程,需要添加Spark Streaming依赖。3、Spark streaming 基于Spark Core进行计算,需要注意事项: 设置本地master,如果指定local的话,必须配置至少二条线程,也可通过sparkconf来设置,因为Spark Streaming应用程序在运行的时原创 2016-04-21 18:26:46 · 6981 阅读 · 0 评论 -
linux基础命令学习(1)
基础操作修改机器名 :vim /etc/hostname在文件中修改机器名称为我们想要的名称:hulb 然后 关机: shutdown –h now 重启: reboot –h now 查看ip:ifconfig 通过vim /etc/hosts来建立域名和ip之间的映射关系,访问的时候访问域名hulb就行了例如: 192.168.1.110 work1查看当前所在目录原创 2016-04-08 11:34:33 · 414 阅读 · 0 评论 -
基于HDFS的SparkStreaming案例实战和原理浅析
概要本节主要讲解在开发环境中编写SparkStreaming代码监控hdfs目录,实现实时wordCount计算。先通过Java方式演示过程,并在文末提供Scala版本代码。一、环境准备1.启动Hadoop集群cd /usr/local/hadoop/hadoop-2.6.0/sbin/./start-dfs.sh //通过http://master:50070(50070为默认端口)查看d原创 2016-04-19 10:16:59 · 5131 阅读 · 2 评论 -
Spark性能调优之——在实际项目中分配更多的资源
分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上提升,是显而易见的,基本上,在一定范围内,增加资源与性能的提升,是成正比的,写完一个复杂的spark作业之后,进行性能调优的时候首先第一步,我决定就是要来调节最优的资源配置,在这个基础之上,如果说你的spark作业,能够分配的资源达到你的能力范围的顶端之后,无法分配更多资源了,公司资源有限,那么才是考虑去做后面的这些性能调优的点。1原创 2016-08-31 23:58:11 · 1010 阅读 · 0 评论 -
ZooKeeper安装与测试ha
默认情况下,Standalone的Spark集群是Master-Slaves架构的集群模式,由一台master来调度资源,这就和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题呢?Spark提供了两种方案:基于文件系统的单点恢复(Single-Node Recovery with Local File system)和基于zookeepe转载 2016-12-23 20:43:39 · 2897 阅读 · 0 评论 -
性能调优之在实际项目中调节并行度
Spark 并行度指的是什么?Spark作业,Application Jobs action(collect)触发一个job; 每个job 拆成多个stage, 怎么划分: 发生shuffle的时候,会拆分出一个stage;(怎么会发生shuffle?)stage0 stage1WordCountval lines = sc.textFile(“hdfs://”)val words = lin原创 2016-08-31 23:58:52 · 1443 阅读 · 0 评论