Clark逸晨-CSDN博客

转载 Elasticsearch unassigned错误解决（手动处理）

查看集群健康状态：curl -XGET http://localhost:9200/_cluster/health\?pretty图中显示，有0个分片未分配节点*****************************开始修复************************************1、查看所有分片状态：curl -XGET http://localhost:9200/_cat/shards （显示所有分片状态）；curl -s "http://localhost:920.

2021-08-31 16:53:45 960

转载 Spark多文件输出(MultipleOutputFormat)

　在本博客的《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(一)》《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(二)》两篇文章中我介绍了如何在Hadoop中根据Key或者Value的不同将属于不同的类型记录写到不同的文件中。在里面用到了MultipleOutputFormat这个类。　...

2018-04-12 09:48:44 2034

转载数据结构与算法基础

技术面试宝典：很全面的算法和数据结构知识（含代码实现）目录在线练习在线编程面试数据结构算法贪心算法位运算复杂度分析视频教程面试宝典计算机科学资讯文件结构在线练习LeetCodeVirtual JudgeCareerCupHackerRankCodeFightsKattisHackerEarthCodilityCode ForcesCode ChefSphere Online Judge – SP...

2018-03-12 17:38:43 338

转载 spark中groupByKey与reducByKey的区别

让我们来看两个wordcount的例子，一个使用了reduceByKey，而另一个使用groupByKey:1234567891011val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(words).map(word =&

2018-03-06 14:20:52 3702

转载 Java 接口 (interface) and Scala 特质 (trait)

摘要：本文将简要介绍Java中的接口(interface)，Java 8中接口default方法，以及Scala中的特质(trait)，同时会比较Java接口与Scala特质的相似与差异。1. Java 接口 (interface) 介绍1.1 Java传统的接口 (interface)Java接口是一系列方法的声明，是一些方法特征的集合，一个接口只有方法的特征没有方法的实现，因此这些方法可以在不...

2018-03-06 14:15:23 2298

转载 Scala和Java的语法差异

Scala和Java的语法差异Scala作为基于jvm的语言，可以直接复用所有java的库资源，同时其具备函数式编程的特性以及脚本语言的特性，语法更加简洁。scala具备面向对象和函数式编程理念的混合体（这点和python有点像），从编写简单脚本到建立大型的系统，都是适用的。目前spark、kafaka等流行的大数据处理的软件都是由scala编写。1 语法差异罗列下面介绍一些scala语言和j...

2018-03-06 14:13:30 628

转载经典算法应用之七----10亿数据中取最大的100个数据

给出三种思路，仅供参考。。1.思路一：根据快速排序划分的思想，每次分割之后只考虑比轴大的一部分，知道比轴大的一部分在比100多的时候，采用传统排序算法排序，取前100个。step1：递归对所有数据分成[a,b)，(b,d]两个区间，(b,d]区间内的数都是大于[a,b)区间内的数step2：对(b,d]重复 step1操作，直到最右边的区间个数小于100个。注意[a,b)区间不用划分step3：返...

2018-02-27 15:52:35 3426

转载 HBase的RowKey设计原则

HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：通过get方式，指定rowkey获取唯一一条记录通过scan方式，设置startRow和stopRow参数进行...

2018-02-27 15:05:41 434

原创 HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

1、order by hive中的order by 和传统sql中的order by 一样，对数据做全局排序，加上排序，会新启动一个job进行排序，会把所有数据放到同一个reduce中进行处理，不管数据多少，不管文件多少，都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：...

2018-02-27 09:59:58 498

转载【Hive】hive的数据压缩

Hive文件存储格式包括以下几类：1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE　　其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。　　SEQUENCEFILE，RCFILE，ORCFILE格式的表不能直接从本地文件导入数据，数据要先导入到textfile格式的表中，然后

2017-10-25 14:00:35 1372

转载 Hadoop—网站日志分析项目案例（二）数据清洗

网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例（二）数据清洗：当前页面网站日志分析项目案例（三）统计分析：http://www.cnblogs.com/edisonchou/p/4464349.html一、数据情况分析1.1 数据情况回顾　　该论坛数据有

2017-10-25 10:48:01 1025

转载【Hive】 Hive调优总结——数据倾斜，join表连接优化

数据倾斜即为数据在节点上分布不均，是常见的优化过程中常见的需要解决的问题。常见的Hive调优的方法：列剪裁、Map Join操作、 Group By操作、合并小文件。一、表现 1.任务进度长度为99%，在任务监控页面中发现只有几个 reduce 子任务未完成； 2.单一 reduce 记录与平均记录数差异过大（大于3倍），最长时长＞＞平均时长；

2017-10-24 11:20:08 1987

转载 hive mapjoin 使用

HIVE mapjoinselect f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报

2017-10-24 11:01:00 827

意中人