luoyunfan6-CSDN博客

原创 sql索引使用以及应用场景

一般在什么字段上建立索引？1.表的主键外键必须有2.经常与其他表进行连接的表，在连接字段上建立索引3.where后面的判断条件4.选择性高的字段上5.建立在小字段上，对于大字段甚至超长字段不要建立索引使用索引字段的时候应该注意什么？下面是不走索引的情况1.select *可能导致不走索引2.在索引字段上使用!=、<>、not in 、 not ...

2020-01-04 14:53:13 985

原创 Hbase的读写操作流程

写操作流程client通过zookeeper的调度，向相应的RegionServer发出写请求，在相应的region中写数据。数据先写入hlog，然后写入memstore，知道memstore到达一定的阈值。 memstore到达阈值后，会创建一个新的memstore，并将老的添加到flush队列，由单独的线程flush到磁盘上，成为一个storeFile。与此同时，zookeeper会...

2019-12-28 15:11:52 357

原创 Hbase的架构

- Client : hbase客户端， 1.包含访问hbase的接口。比如，linux shell，java api。 2.除此之外，它会维护缓存来加速访问hbase的速度。比如region的位置信息。- Zookeeper ： 1.监控Hmaster的状态，保证有且仅有一个活跃的Hmaster。达到高可用。 2.它可以存储所有region的寻址入口。如：r...

2019-12-28 14:30:04 317

原创 spark1.6和spark2.0内存管理的对比

spark从1.6.4版本之后就直接到了2.0版本下面简单说一下2.0内存管理的变化在2.0之前，spark内存管理都是用静态管理的方式，主要是分成了三大块，比例为6（存储）：2（执行）：2（其他），如下图：spark2.0内存的管理发生了变化，开始使用统一内存管理，主要结构如下storage和execution的动态占用机制...

2019-12-27 20:06:41 519

原创 spark消费kafka数据，并把偏移量保存在redis

实现功能：从kafka读取某一主题，消费者组的偏移量基于读出的offset，创建kafka读取流程把各个分区的偏移量保存到redis。import Kafka010.Utils.{MyKafkaUtils, RedisUtilsDemo}import org.apache.kafka.clients.consumer.ConsumerRecordimport org.ap...

2019-12-26 20:13:28 1205

原创 sql语句优化点

1、创建索引在where或order by字段上使用索引。索引不宜过多，会增加insert和update的负担，因为会重建索引。2、索引上避免使用计算效率低： select * from user where salary*22>11000(salary是索引列) 效率高： select * from user where salar...

2019-12-02 19:42:02 189

转载 Spark性能优化：shuffle调优

调优概述ShuffleManager发展概述HashShuffleManager运行原理未经优化的HashShuffleManager优化后的HashShuffleManagerSortShuffleManager运行原理普通运行机制bypass运行机制shuffle相关参数调优spark.shuffle.file.bufferspark.reducer...

2019-11-28 17:36:53 156

转载 Spark性能优化：数据倾斜调优

1.数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况2.数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key解决方案三：提高shuffle操作的并行度解决方案四：两阶段聚合...

2019-11-28 16:19:43 152

转载 Spark性能优化：开发调优篇

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算...

2019-11-28 14:17:18 147

转载 Spark性能优化：资源调优篇

Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚...

2019-11-28 11:53:58 144

原创 spark中的序列化问题

在spark中4个地方用到了序列化：1、算子中用到了driver定义的外部变量的时候2、将自定义的类型作为RDD的泛型类型，所有的自定义类型对象都会进行序列化3、使用可序列化的持久化策略的时候。比如：MEMORY_ONLY_SER，spark会将RDD中每个分区都序列化成一个大的字节数组。4、shuffle的时候任何分布式系统中，序列化都扮演着一个很重要的角色。如果使用的序...

2019-11-28 11:20:45 1092

原创 spark读取es数据遇到的问题

es版本：6.3.1spark版本：2.2.0导入pom依赖<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> ...

2019-11-23 13:45:49 1246

原创 npm安装问题

npm WARN package.json @ No descriptionnpm WARN package.json @ No repository field.npm WARN package.json @ No README datanpm http GET https://registry.npmjs.org/expressnpm http GET https://regist...

2019-11-23 11:06:10 351

原创 es api------高级搜索、高亮查询、聚合查询、加权排序

es的搜索类型（SearchType）有4种query and fetch(速度最快)(返回N倍数据量，多个副本连同自己分片中的数据都会呈现出来，数据重复！)query then fetch（默认的搜索方式）DFS query and fetch ~>用来给检索到的每条记录计算分数DFS query then fetch(可以更精确控制搜索打分和排名。)从性能...

2019-11-22 20:05:56 2087

原创 ek插件------ik中文分词器的使用

ik分词器的使用ik分词器的安装离线安装： 1、https://github.com/medcl/elasticsearch-analysis-ik/releases下载与es对应版本的ik 2、解压到es/plugins目录下面 3、分发到另外的机器上面（目录也是es/plugins） 4、重启es在线安装： 1、在es目录下面输入 ./bin/elasticsearch-pl...

2019-11-22 19:08:22 542

原创 flink的一些概念

flink的特点1、事件驱动型事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以kafka为代表的消息队列几乎都是事件驱动型应用。2、纯流式框架批处理的特点是有界、持久、大量，非常适合需要访问全套记录才能完成的计算工作，一般用于离线统计。流处理的特点是无界、实时, 无需针对整个数据集执行操作...

2019-11-21 09:34:47 673

原创 Redis可视化客户端 redis desktop manager

链接：https://pan.baidu.com/s/1qmCGV3dHTv2pFcQkmh6QKg提取码：x6t6

2019-11-19 19:25:16 275

原创 redis【命令总结】【五种常用数据类型】

Redis的常用命令主要分为两个方面、一个是键值相关命令、一个是服务器相关命令 1、键值相关命令 keys * 取出当前所有的key exists name 查看redis是否有name这个key del name 删除key name expire confirm 100 设置confirm这个ke...

2019-11-19 19:05:32 173

原创 spark structured streaming和spark streaming

https://blog.csdn.net/asd136912/article/details/88320740

2019-11-18 18:53:39 290 1

原创 spark的安装配置

Spark运行模式Local 多用于本地测试，如在eclipse，idea中写程序测试等。Standalone是Spark自带的一个资源调度框架，它支持完全分布式。YarnHadoop生态圈里面的一个资源调度框架，Spark也是可以基于Yarn来计算的。Mesos资源调度框架。spark集群的安装基本条件:同步时间、免密登录、关闭防火墙、安装JDK1.81.上传安装包到...

2019-11-17 18:04:02 312

原创 SparkStreaming窗口函数

窗口函数的应用中有三个时间的参数。1、批次时间val ssc = new StreamingContext(conf,Milliseconds(5000))2、窗口大小时间（Second（15））val windowWc =pairs.reduceByKeyAndWindow((a:Int,b:Int)=>(a+b),Seconds(15),Seconds(10))...

2019-11-17 17:14:40 548

原创 SparkStreaming过滤黑名单数据简单案例

根据自己制定的规则，判断出黑名单ip，保存起来。在后续产生的数据中，与黑名单数据进行比对，进行筛选。import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.storage.Sto...

2019-11-17 14:22:58 688

原创 SparkStreaming对接kafka的两种方式

第一种：receiver方式。1、receiver不停地从kafka拉取数据，n秒钟（程序设置的）拉取产生一批数据2、这种方式偏移量zookeeper帮我们管理，灵活性差这种方式有缺点： receiver从Kafka中获取的数据都存储在Spark Executor的内存中，某个时间段内拉去的数据可能会大于某台机器executor分配的内存数量，部分数据会溢出丢失。针对这一问题...

2019-11-17 13:33:11 803

原创 SparkStreaming关于Driver进程的高可用问题

SparkStreaming程序一旦启动之后，除非我们手动停止，否则会一直处于运行的状态。Driver只是一个简单的进程，在程序运行过程中，有可能挂掉，此时SparkStreaming应用会停止运行。所以实现Driver的HA就有必要（如果使用的Client模式就无法实现Driver HA ，这里针对的是cluster模式）。准备一段代码package spark.SparkStre...

2019-11-16 21:31:19 467

原创 SparkCoreSqlStreaming联合使用案例

需求：实时统计所有商品销售量的top3（不同厂商同一商品）测试数据：001 mi moblie002 mi moblie003 mi moblie004 mi moblie005 huawei moblie006 huawei moblie007 huawei moblie008 Oppo moblie009 Oppo moblie010 uniqlo colthi...

2019-11-16 19:03:50 318

原创关于SparkStreaming的checkpoint问题

在流式运行程序运行时，必须全天24小时的运行，因此我们必须应对与应用程序逻辑无关的故障（例如系统故障，JVM崩溃等）为此，Spark Streaming需要将足够的信息检查点指向容错存储系统，以便可以从故障中恢复。检查点有两种类型的数据。1、元数据检查点---将定义流计算的信息保存到HDFS等容错存储中。这用于从运行流应用程序的驱动程序的节点的故障中恢复。元数据包括： ...

2019-11-16 18:00:01 749

原创 SparkStreaming整合mysql

测试过程：1.向虚拟机mini1的7777端口发送一个个的单词信息2.Streaming程序接受7777端口的数据，并做处理。3.将DStream[(String, Int)]转化成RDD写入到mysql程序如下：package spark.SparkStreaming.fileimport java.sql.DriverManagerimport org.apache.spar...

2019-11-16 09:13:35 742 1

原创 SparkStreaming读取hdfs文件

package spark.SparkStreaming.fileimport org.apache.spark.SparkContextimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Description：统计h...

2019-11-15 21:46:58 1674

原创 SparkStreaming对接kafka代码测试

receiver方式的代码测试package spark.SparkStreaming.testimport kafka.serializer.StringDecoderimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.storage.StorageLevelim...

2019-11-15 21:01:56 367

原创 kafka重装时，需要在zookeeper删除的节点信息

topicsconfig —配置信息consumerproducerbrokers —集群几点信息，topic信息admin —删除的topiccontroller —控制节点的broker.i...

2019-11-15 19:08:27 1421

原创 kafka对接flume

首先配置flume文件的信息(flume2kafka.properties)# flume-kafka.properties: 用来定制agent的各个组件的行为（source,channel,sink）############################################# 对各个组件的描述说明# 其中a1为agent的名字# r1是a1的source的代号名字# ...

2019-11-13 20:16:31 303

拦截器中方法介绍：Producer拦截器(interceptor)是在Kafka 0.10版本被引入的，主要用于实现clients端的定制化控制逻辑。对于producer而言，interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求，比如修改消息等。同时，producer允许用户指定多个interceptor按序作用于同一条消息从而形成一个拦截链(i...

2019-11-13 20:04:40 281

原创 kafka的自定义分区

首先定义一个自定义分区类package Partition;import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster;import org.apache.kafka.common.PartitionInfo;import java.util.List;impor...

2019-11-13 19:45:14 354

原创 kafka的api操作（发布和订阅）

消息发布apipom.xml<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.11.0.0</ve...

2019-11-13 19:32:01 797

原创 kafka命令行操作

主题相关操作关键参数：--alter 修改主题--create 创建主题 --delete 删除主题--describe 显示出给定主题的详情.--list 罗列出kafka分布式集群中所有有效的主题名--partitions 创建或是修改主题时通过该参数指定分区数。--replication-factor 创建修改主题时通过该参数指定分区的副本数。...

2019-11-13 14:12:25 843

原创 kafka分布式集群的搭建

（1）下载安装包http://archive.apache.org/dist/kafka/注意下载版本和scala要匹配（2）解压安装包tar -zxvf kafka_2.11-0.11.0.0.tgz -C /home/hadoop/apps/ （3）修改配置文件cd configvi server.properties#broker的全局唯一编号，不能重复broker....

2019-11-13 10:21:16 130

原创 Spark之textFile切片详解

textFilespark所有基于文件的输入方法，都支持目录读取、压缩文件、和通配符，比如：textFile("/my/directory")textFile("/my/directory/*.txt")textFile("/my/directory/*.gz")该方法还采用可选的第二个参数来控制文件的分区数，分区规则可以参考源码。首先按住crtl，鼠标左键点击进入textF...

2019-11-08 21:11:37 3759 1

原创 SparkOnHive

一、第一种使用内置的hive（一般来说不会用）1.先启动spark集群2.进入到spark-shell3.在spark-shell下操作hivespark.sql("show tables").show 查询所有hive的表spark.sql("CREATE TABLE IF NOT EXISTS src (key INT,value STRING)") 创建表spark.sql("L...

2019-11-08 19:28:38 664

原创 SparkSql的输入输出

SparkSQL的输入和输出SparkSQL的输入写法一:SparkSession对象.read.json(“路径”)SparkSession对象.read.jdbc(“路径”)SparkSession对象.read.csv(“路径”)SparkSession对象.read. parquet(“路径”) Parquet格式经常在Hadoop生态圈中被使用，它也支持Spark SQL的全...

2019-11-08 14:31:59 1087

原创 es的安装

1.解压文件tar -zxvf elasticsearch-1.7.3.tar.gz2.配置文件config/elasticsearch.yml注意：后面的空格#这是集群名字，组播的方式通信。es启动后会将具有相同集群名字的节点放到一个集群下。cluster.name:elasticsearch -------------★-------------------#节点名字node...

2019-11-05 22:00:21 172

SparkCore.pdf

在线考试系统.zip

空空如也