我丶怀念的-CSDN博客

转载 Elasticsearch 条件搜索

搜索APIES提供了两种搜索的方式：请求参数方式和请求体方式。请求参数方式curl 'localhost:9200/bank/_search?q=*&pretty'其中bank是查询的索引名称，q后面跟着搜索的条件：q=*表示查询所有的内容请求体方式（推荐这种方式）curl -XPOST 'localhost:9200/bank/_search?pretty...

2018-09-04 11:39:21 1169

转载 spark数据倾斜的解决方案

数据倾斜调优简述有时候，大家可能会遇到大数据开发过程中一个比较棘手的问题，那就是数据倾斜，此时Spark作业的性能会比预期差很多，数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三...

2018-08-27 17:34:56 641

1.Kafka独特设计在什么地方？2.Kafka如何搭建及创建topic、发送消息、消费消息？3.如何书写Kafka程序？4.数据传输的事务定义有哪三种？5.Kafka判断一个节点是否活着有哪两个条件？6.producer是否直接将数据发送到broker的leader(主节点)？7.Kafa consumer是否可以消费指定分区消息？8.Kafka消息是采用Pull模式，还是Push模式？9.Pr...

2018-08-21 14:04:23 30094 6

原创 ElasticSearch索引查询指令

用过 ElasticSearch的很多都记不住指令操作。个人总结了些我们通常用_cat检测集群是否健康。确保9200端口号可用:　　curl 'localhost:9200/_cat/health?v' 　　绿色表示一切正常, 黄色表示所有的数据可用但是部分副本还没有分配,红色表示部分数据因为某些原因不可用. 　　2.通过如下语句，我们可以获取集群的节点列表：　　cu...

2018-08-14 19:37:13 5641

原创 Kafka + Spark Streaming + Redis 实战项目

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我们...

2018-08-13 21:17:54 3844

原创 Hive2.0函数

Hive2.0函数大全目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) ...

2018-08-13 20:31:13 185

原创 spark官方配置参数详解

以下是整理的Spark中的一些配置参数，官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的 conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置：可以通过log4j.properties配置Spa...

2018-08-13 18:38:17 1416

原创 spark常见问题错误汇总

一.经验1.Spark Streaming包含三种计算模式：nonstate .stateful .window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务，不用拷贝整个架包，只需拷贝被修改的文件，然后在目标服务器上编译打包。5.kafka的log.dirs不要设置成/tmp下的目录，貌似...

2018-08-13 18:25:29 5592

原创 Scala中处理正则

object ScalaRegex { def main(args: Array[String]): Unit = { //例子一整个字符串匹配模式 println("51".matches("""\d+"""))//true //例子二查询是否包含复合正则的模式 println("""\d+""&qu

2018-08-13 18:05:41 941

转载 Jedis操作Redis

原文链接：http://blog.csdn.net/xyang81/article/details/51918129在Maven中引用jedis的jar：<dependencies> <dependency> <groupId>junit</groupId> <artifactId>jun...

2018-08-13 18:01:38 500

原创 spark 关于spark-submit 参数调优策略

--sparksubmit --num-executors 该参数主要用于设置该应用总共需要多少executors来执行，Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数，并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况，太少了无法充分利用集群资源，太多了则难以分配需要的资源。 ...

2018-08-13 14:26:00 3754

我丶怀念的的博客