大数据
guicaizhou
这个作者很懒,什么都没留下…
展开
-
hive数据去重,并取指定的一条数据
hive数据去重,并根据需求取其中一条数据案例:name adx tran_id cost ts ck 5 125.168.10.0 33.00 1407234660ck 5 187.18.99.00 33.32 140723...转载 2018-03-05 20:03:36 · 3415 阅读 · 0 评论 -
Hadoop YARN配置参数剖析—Capacity Scheduler相关参数
Capacity Scheduler是YARN中默认的资源调度器。想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。在Capacity Scheduler的配置文件中,队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y,为了简单起见,我们记为Y,则每个队列可以配...转载 2018-11-09 16:07:42 · 1799 阅读 · 0 评论 -
Hadoop YARN配置参数剖析—Fair Scheduler相关参数
首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。Fair Scheduler的配置选项包括两部分,其中一部分在yarn-site.xml中,主要用于配置调度器级别的参数,...转载 2018-11-09 16:09:36 · 505 阅读 · 0 评论 -
Hive修改表
Alter Table 语句它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTER TABLE name DROP [COLUMN] column_name...转载 2018-11-21 16:10:43 · 293 阅读 · 0 评论 -
csv、parquet、orc读写性能和方式
背景 最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个存储文件效率更高或者执行效率更高的文件格式作为替代品。 存储方式 csv...转载 2018-12-05 17:41:03 · 3762 阅读 · 2 评论 -
Kafka到Hdfs的数据Pipeline整理
1> Kafka -> Flume –> Hadoop Hdfs常用方案,基于配置,需要注意hdfs小文件性能等问题.GitHub地址: https://github.com/apache/flume2> Kafka -> Kafka Hadoop Loader ->Hadoop HdfsKafka Hadoop Loader通过为kafka ...转载 2018-12-21 11:59:12 · 744 阅读 · 0 评论 -
Hadoop面试
1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2.单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3.伪分布模式中的注意点?伪分布式(Pseudo)适用于开发和测试环境...转载 2018-12-21 14:53:43 · 561 阅读 · 0 评论