2020年02月_云祁

原创【Hive】（二十二）往 Hive 表中插入与导出数据方式load 、insert 、sqoop 等方式详解

文章目录一、前言二、往hive表中导入数据三、通过查询insert ....select的形式往hive中导入数据四、使用create....as 语句往hive表里装载数据五、从hive表里导出数据到文件系统一、前言往hive数据仓库的表中导入数据，可以直接insert ，也可以选择load方式。当然也可以通过第三方工具如sqoop等将数据导入到hive当初。特别注意：hive虽然不会验证用...

2020-02-29 17:59:54 2153

原创【Hive】（二十一）textfile、sequencefile 和 rcfile 的使用与区别详解

一、引言hive在创建表时默认存储格式是textfile，或者显示自定义的stored as textfile。很多人知道hive常用的存储格式有三种，textfile,sequencefile,rcfile.但是却说不清楚这三种格式的干什么用的，本质有有什么区别？适合什么时候用？二、思考为什么hive会有多种存储格式？因为hive是文本批处理系统，所以就存在一个往hive中导入数据的问题，...

2020-02-29 17:46:14 1537

原创【Hive】（二十）详解 Hive 四种排序的区别

排序6.5.1 全局排序（Order By）Order By：全局排序，只有一个Reducer1．使用 ORDER BY 子句排序ASC（ascend）: 升序（默认）DESC（de...

2020-02-29 17:11:39 1377

原创【Spark 调优】Spark 开发调优的十大原则

Spark的调优是面试或者笔试考察的重点！

2020-02-29 17:03:04 1476 2

原创【大数据面试题】（八）Spark 相关面试题

1.spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合Dataset：就是一个集合，用于存放数据的Destributed：分布式，可以并行在集群计算Resilient：表示弹性的，弹性表示1.RDD中的数据可以存储在内存或者...

2020-02-29 16:59:33 28469 2

原创【Hive】（十九）Hive 常用参数优化汇总

● 使用动态分区需要加配置：SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=nonstrict;SET hive.exec.max.dynamic.partitions=1000;SET hive.exec.max.dynamic.partitions.pernode=100;为了防止一个reduc...

2020-02-29 16:52:08 1312

原创【Hive】（十八）Hive 空值判断

Hive中空值判断基本分两种（1）NULL 与 \Nhive在底层数据中如何保存和标识NULL，是由 alter table name SET SERDEPROPERTIES(‘serialization.null.format’ = ‘\N’); 参数控制的比如：1.设置 alter table name SET SERDEPROPERTIES(‘serialization.null.f...

2020-02-29 16:46:33 2136

原创【Spark 应用】实现分组取topN

一、文本格式class1 90class2 56class1 87class1 76class2 88class1 95class1 74class2 87class2 67class2 77二、代码如下package com.scala import org.apache.spark.SparkConfimport org.apache.spark.Spa...

2020-02-29 16:40:51 1164

原创【数据挖掘算法】（二）MSET 算法参差分析

文章目录一、滑动窗口残差统计法二、序贯概率比检验一、滑动窗口残差统计法记某段时间内，MSET模型的预测残差序列为：采用滑动窗口残差统计方法的原因：该方法能够连续实时地检测残差统计特性的变化，算法简单，适合在线实时分析。 MSET模型采用过程记忆矩阵D中合理选择的有限个历史观测向量代表整个齿轮箱温度特性的正常工作空间。其对整个正常工作空间总体上覆盖能力较好,但对正常工作空间的不同区...

2020-02-29 11:54:08 3068 1

原创【数据挖掘算法】（一）MSET 算法

文章目录一、算法介绍二、算法步骤三、过程说明一、算法介绍MSET(Multivariate State Estimation Technique)是由Singer等提出的一种非线性的多元预测诊断技术，是一种通过分析对比实际监测参数与设备正常运行时的健康数据为基础，对正常运行时的各个参数进行运算并做出估计，以这种正常的状态估计作为标准。当得到实际的运行数据时，同样以健康数据为基础，并找到实际数据...

2020-02-27 23:29:15 4777 3

原创用户行为分析大数据平台之（三）实时数据采集

2020-02-27 10:14:25 1951

原创用户行为分析大数据平台之（二）离线数据采集

2020-02-27 10:13:40 1367

原创用户行为分析大数据平台之（一）项目介绍

文章目录一、项目概述二、业务模块介绍2.1　用户访问session分析2.2　页面单跳转化率统计2.3　热门商品离线统计2.4　广告流量实时统计一、项目概述本项目主要用于互联网电商企业中，使用Spark技术开发的大数据统计分析平台，对电商网站的各种用户行为（访问行为、购物行为、广告点击行为等）进行复杂的分析。用统计分析出来的数据，辅助公司中的PM（产品经理）、数据分析师以及管理人员分析现有产品...

2020-02-26 20:18:04 1869

原创【Kafka】（十四）Kafka 架构深入

文章目录一、Kafka 工作流程及文件存储机制一、Kafka 工作流程及文件存储机制Kafka 中消息是以 topic 进行分类的，生产者生产消息，消费者消费消息，都是面向 topic的。topic 是逻辑上的概念，而 partition 是物理上的概念，每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。Producer 生产...

2020-02-26 00:10:25 1939 2

原创【Kafka】（十三）broker 副本与 ISR 设计

kafka把分区的所有副本均匀地分配到所有broker上，并从这些副本中挑选一个作为leader副本对外提供服务，而其他副本被称为follower副本，只能被动地向leader副本请求数据，从而保持与leader副本的同步：所谓isr，就是Kafka集群动态维护的一组同步副本集合，每个topic分区都有自己的isr列表，isr中的所有副本都与leader保持同步状态，而producer写入的一条...

2020-02-25 19:14:28 1259

原创【Kafka】（十二）Kafka 自定义分区器

一、默认的分区策略(1) 如果键值为 null，并且使用了默认的分区器，那么记录将被随机地发送到主题内各个可用的分区上。分区器使用轮询（Round Robin）算法将消息均衡地分布到各个分区上。(2) 如果键不为空，并且使用了默认的分区器，那么 Kafka 会对键取 hash 值然后根据散列值把消息映射到特定的分区上。这里的关键之处在于，同一个键总是被映射到同一个分区上，所以在进行映射时，我们...

2020-02-25 19:12:25 1148

转载【Kafka】（十一）Kafka 的备份机制

Kafka的备份机制Kafka的备份的单元是partition，也就是每个partition都都会有leader partiton和follow partiton。其中leader partition是用来进行和producer进行写交互，follow从leader副本进行拉数据进行同步，从而保证数据的冗余，防止数据丢失的目的。如图: follow副本是如何实现和leader副本进行数据...

2020-02-25 19:06:06 2396

原创 MySQL 索引创建的原则

文章目录前言1、对于查询频率高的字段创建索引2、对排序、分组、联合查询频率高的字段创建索引3、索引的数目不宜太多4、若在实际中，需要将多个列设置索引时，可以采用多列索引5、选择唯一性索引6、尽量使用数据量少的索引7、尽量使用前缀来索引8、删除不再使用或者很少使用的索引前言MySQL 索引的使用一直是工作中的重点，一个线上项目如果不能合理使用索引，那带来的危害可能是毁灭性的（数据库锁死、当...

2020-02-23 18:45:59 1347

原创 Java 多线程同步与线程间通信

文章目录前言1、synchronized 关键字修饰方法或代码段,只保证临界数据是互斥访问的2、volatile修饰变量3、ReentrantLock可重入锁，实现数据的互斥访问4、wait和notify，实现线程间的等待通知机制5、ReentrantLock结合Condition接口，实现线程间的等待通知机制前言java多线程同步和通信的方法有如下几种：synchronized关键字修饰...

2020-02-23 08:47:55 1168

原创 HashSet 如何体现出无序性？

文章目录一、创建hashset实例化对象二、查看源码三、查看HashMap的put添加数据方式四、总结分析为什么sh说HashSet是无序的？首先我们看源码解析。一、创建hashset实例化对象Set<String> set = new HashSet<String>();set.add("hello");set.add("hello");//重复元素set.a...

2020-02-22 20:26:42 1554

原创【Hbase】（十一）详解 HBase 表的设计原则

文章目录一、建表高级属性1、 BLOOMFILTER2、 VERSIONS3、 COMPRESSION4、 TTL5、 alter6、 describe/desc7、 disable_all/enable_all8、 drop_all9、 hbase 预分区二、表设计1、列簇设计2、RowKey 设计三、Rowkey 设计三原则1、 rowkey 长度原则2、rowkey 散列原则3、rowkey...

2020-02-22 18:54:26 1867 4

原创【Spark】Spark SQL 数据类型转换

前言数据类型转换这个在任何语言框架中都会涉及到，看起来非常简单，不过要把所有的数据类型都掌握还是需要一定的时间历练。SparkSql数据类型数字类型ByteType：代表一个字节的整数。范围是-128到127ShortType：代表两个字节的整数。范围是-32768到32767IntegerType：代表4个字节的整数。范围是-2147483648到2147483647LongT...

2020-02-22 11:41:53 4929

原创【Python】PySpark 入门

1 Resilient Distributed Datasets（RDD）弹性分布式数据集（RDD）是一个不可变的JVM对象的分布式集合，是Spark的基本抽象。1.1 创建RDD 准备工作：>>> import pyspark>>> from pyspark import SparkContext>>> from pyspark...

2020-02-19 22:46:49 1209

原创【Kafka】（十）Kafka 如何实现高吞吐量

1.顺序读写kafka的消息是不断追加到文件中的，这个特性使kafka可以充分利用磁盘的顺序读写性能顺序读写不需要硬盘磁头的寻道时间，只需很少的扇区旋转时间，所以速度远快于随机读写生产者负责写入数据，Kafka会将消息持久化到磁盘，保证不会丢失数据，Kafka采用了俩个技术提高写入的速度。1.顺序写入：在大学的计算机组成（划重点）里我们学过，硬盘是机械结构，需要指针寻址找到存储数据的位置...

2020-02-17 16:25:53 2126

原创【Flume】（四）Flume 企业真实面试经验

文章目录一、你是如何实现 Flume 数据传输的监控的二、Flume 的 Source，Sink，Channel 的作用？你们 Source 是什么类型？三、Flume 的 Channel Selectors四、Flume 参数调优五、Flume 的事务机制六、Flume 采集数据会丢失吗?一、你是如何实现 Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume。二...

2020-02-16 19:41:59 1611 4

原创【Flume】（三）Flume 事务、拓扑结构和Flume Agent 内部原理

文章目录一、Flume 事务二、Flume Agent 内部原理三、Flume 拓扑结构1、简单串联2、复制和多路复用3、负载均衡和故障转移4、聚合一、Flume 事务二、Flume Agent 内部原理重要组件：1）ChannelSelectorChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型，分别是 Replicating...

2020-02-16 19:22:29 1431 1

原创【Flume】（二）Flume 定义和基础架构

文章目录一、Flume 定义二、Flume 基础架构一、Flume 定义Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。为什么选用 Flume ?二、Flume 基础架构AgentAgent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成，So...

2020-02-16 16:58:18 1333

原创【大数据面试题】（七）Kafka 相关面试题总结

文章目录一、请说明什么是Apache Kafka?二、Kafka的设计是什么样的呢？三、请说明什么是传统的消息传递方法?四、请说明Kafka相对传统技术有什么优势?五、在 Kafka 中 broker 的意义是什么？六、什么是broker？作用是什么?七、Kafka服务器能接收到的最大信息是多少?八、解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka吗...

2020-02-16 15:43:42 1927 2

原创【Kafka】（八）Kafka 集群安装与环境测试

一、下载二、安装前提（zookeeper安装）三、安装四、配置config/server.properties五、修改环境变量五、启动1、首先启动zookeeper集群2、启动Kafka集群服务

2020-02-15 15:56:47 1205

原创【Kafka】（九）项目中使用 Kafka 整合 Flume

文章目录一、启动 Kafka二、创建 Topic 消息队列三、查询 kafka 消息队列四、启动 consumer 监控窗口五、写 Flum 的自定义配置文件六、开启 Flume七、结果分析一、启动 Kafkakafka-server-start.sh /opt/soft/kafka211/config/server.properties 二、创建 Topic 消息队列kafka-top...

2020-02-15 15:31:34 1198 1

原创【Hbase】Java 远程连接 Hbase 并处理表数据

1、在你的window系统下找到c:/window/system32/drivers/etc/hosts 在末尾添加虚拟机IP 虚拟机的hostname（如 192.168.56.100 gg）2、在java代码中添加:Configuration config = HBaseConfiguration.create();config.set(“hbase.rootdir”,“hdfs:/...

2020-02-14 20:53:00 1161 1

原创【Kafka】（七）Kafka Streams 基本概念及API详解

1. KafKa Streams简介功能强大高拓展性，弹性，容错有状态和无状态处理基于事件时间的Window，Join，Aggergations 轻量级无需专门的集群没有外部以来一个库，而不是框架完全集成 100%的Kafka 0.10.0版本兼容易于集成到现有的应用程序程序部署无...

2020-02-12 23:08:43 2553 1

原创【Spark】Spark Dataframe 对项目中的数据实现列转行操作

文章目录一、数据源二、首先考虑单独两行映射三、同理将其余隔行依次映射四、数据进行拼接一、数据源转换之前先看下数据结构多行存在空值需要过滤，不同的状态（yes、maybe、invited、no）存在多个值，需要转换成（events userid status）的状态val df = spark.read.format("csv").option("header","true").load(...

2020-02-12 23:02:16 1671 1

原创【Kafka】（六）Java 操作 kafka Streams

文章目录一、导入maven包二、编写第一个Streams应用程序:将一个topic写入另一个topic三、Line Split四、单行映射成多行一、导入maven包 <dependency> <gr...

2020-02-11 23:00:26 1858

原创【Kafka】（五）Java 操作 Kafka

文章目录一、创建消息队列二、pom.xml三、生产者四、消费者java操作kafka非常的简单，然后kafka也提供了很多缺省值，一般情况下我们不需要修改太多的参数就能使用。下面我贴出代码。一、创建消息队列kafka-topics.sh --create --zookeeper 192.168.56.137:2181 --topic demo8 --replication-factor 1 ...

2020-02-11 22:29:16 1358

原创【Spark】Spark Dataframe 常用操作（一行数据映射为多行）

spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到HIVE中。不得不赞叹dataframe的强大...

2020-02-11 21:49:15 2479

原创【Kafka】（四）Kafka Streams 转换算子详解

1.stateless transformation无状态的转换算子：流处理器不涉及状态的处理和存储1.1 branch分支：将一个stream转换为1到多个Stream stream----->stream[] //branch 分流 KStream<String, String>[] streams = kStream.branch((k, ...

2020-02-11 21:47:41 2190

原创【Kafka】（三）kafka 命令操作

1.KafKaServer管理1.启动KafKa单个节点kafka-server-start.sh2. 启动KafKa集群自定义脚本启动kafka集群；遍历brokers指定的代理列表取出每个节点，通过SSH方式登录该节点，执行kafka-server-start.sh脚本，启动Kafka。前提，需要确保安装配置了SSH；对自定义脚本赋予执行权限。因为Kafka运行在JVM之上，因此会...

2020-02-11 15:40:54 1400

原创【Kafka】（二）kafka 核心组件

1.KafKa核心组件KafKa的核心功能模块：延迟操作组件；控制器；协调器；网络通信；日志管理器；副本管理器；动态配置管理器心跳检测；1.延迟操作组件1.DelayedOperationKafKa将一些不立即执行而要等待满足一定条件之后才触发完成的操作称为延迟操作，并将这类操作定义为一个抽象类DelayedOperation，具有延迟操作的类继承Delaye...

2020-02-11 15:38:29 1543 1

原创【Kafka】（一）kafka 简介与设计、实现分析

一、Kafka 简介1、Kafka 创建背景Kafka 是一个消息系统，原本开发自 LinkedIn，用作 LinkedIn 的活动流（Activity Stream）和运营数据处理管道（Pipeline）的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。活动流数据是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数据包括页面访问量（Page...

2020-02-10 23:48:09 2718 1

阿里云云计算ACP.xmind

阿里云大数据ACP.xmind

空空如也