![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 57
yostkevin
热爱编程,喜欢各种球类运动。
展开
-
字符串加密 demo
1. AESpackage com.cdp.drs.utils;/** * Created by kevinwyu@deloitte.com.cn */import org.apache.commons.codec.binary.Base64;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springframework.stereotype.Service;import javax.crypto原创 2021-08-29 14:55:19 · 9 阅读 · 0 评论 -
yarn 介绍与spark2 提交
1.图2.资源分配1.可扩展性2.可用性3.利用率:tasktraker静态分配若干固定的map slot和reduce slot ,会出现仅有map slot可用reduce slot不可用,造成reduce等待的情况,yarn中一个节点管理器管理一个资源池,可不断回收重用。4.多租户:向除了mapreduce以外的其他分布式应用开放了h...原创 2021-08-25 10:31:09 · 133 阅读 · 1 评论 -
hive 外部表、内部表、静态分区、动态分区、临时表
内外部表区别1.内部表由hive自己管理数据(所以hive删表会删元数据和主数据),(主)数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse);外部表数据由HDFS管理(所以hive删表会删元数据,但不会删主数据),(主)数据存储位置由自己建表时指定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的数据库名/表名创建一个文件夹,并将属于这个表的数据存放在这里)。h..原创 2021-08-15 16:17:57 · 1532 阅读 · 0 评论 -
hive小文件解决
一 产生原因1.1 数据增量多批次插入,每批次会产生 partitions*reducetasks 个小文件1.2 hive或spark 数据分析 reduce task个数过多。二 解决方法2.1 hadoop archivehive> set hive.archive.enabled=true;hive> set hive.archive.har.parentdir.settable=true;hive> set har.partfile.size=1099.原创 2021-07-08 17:08:16 · 276 阅读 · 0 评论 -
2021 新玩意
1. 任务调度https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/quick-start.html2.spark3.x 性能优化3. 数据湖 hudi4.pulsar5. kylin 3.1.2原创 2021-05-06 21:03:50 · 87 阅读 · 0 评论 -
数据仓库与数据湖相关总结
一、数据仓库分层:DS:数据源层 (mysql,pg(增删改查日志),kafka(机器运行日志、点击日志)),同一类日志可以是多张表结构相似的表(日志表:网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)staging:数据预处理层,存储每天(批次)的增量,表结构和ods层一样ods:操作数据层,存储所有清洗(etl)后的基础数据,表结构基于DS但不完全同于DS(ods日志表 对应 DS 网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)。dd:脏数据层,..原创 2021-05-06 17:07:54 · 516 阅读 · 0 评论 -
java 用Set对结果集按指定key去重并排序
使用场景:在数据量比较大的情况下,某些开窗函数去重会非常耗时,但是用group by+join 又去不干净,这时考虑用group by+join +java set 去重的方法思路:利用重新java类的equals和hashcode方法指定key,然后通过set去重1.测试数据2条,同一个personId 在同一时间(snap_time)有两条数据 (但是这两条数据的record_id不一样,导致原始数据库没有去到重)INSERT INTO dts_daas.res_time_space (.原创 2020-11-05 14:42:54 · 1245 阅读 · 0 评论 -
geomesa hbase demo
1.数据入库从kafka消费模拟过车数据->geomesa特定格式->hbasekafka producermsg:{"plateNo":"渝K0E1G2","plateColor":5,"tollgateID":"50010500001211000928","passTime":"1583020940000","speed":"70.0"}kafka consu...原创 2020-04-23 17:24:45 · 12 阅读 · 1 评论 -
spark 分区 提交 调优
觉得还行的话,点个赞哟。一spark RDD分区原则在Spark的Rdd中,Rdd默认是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。二.coalesce和repartition ...原创 2020-05-24 12:04:53 · 1600 阅读 · 0 评论 -
scala flatmap与map的区别; List、Array、ListBuffer、ArrayList、Set、元组区别
一、flatmap与map的区别1. map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮) = {去皮苹果,去皮梨子} 其中: “去皮”函数的类型为:A => B不能把一行 映射为多行。2.flatMap包含两个操作:会将每一个输入对象输入映射为一个新集合,然后把这些新集合连成一个大集合。 {苹果,梨子}.flatMap(切碎) = {苹果碎片1,苹果碎片2,梨子...转载 2019-02-12 21:56:08 · 1209 阅读 · 0 评论 -
通用调度平台帮助文档
324324234欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,...原创 2018-12-21 18:20:30 · 2814 阅读 · 0 评论 -
Kafka史上最详细原理总结
这张图比较清晰地描述了“分区”的概念,对于某一个topic的消息来说,我们可以把这组消息发送给若干个分区,就相当于一组消息分发一样。分区、Offset、消费线程、group.id的关系1)一组(类)消息通常由某个topic来归类,我们可以把这组消息“分发”给若干个分区(partition),每个分区的消息各不相同;2)每个分区都维护着他自己的偏移量(Offset),记录着该分...转载 2019-03-24 12:09:48 · 1813 阅读 · 0 评论 -
presto 安装部署与测试
1.安装参考链接:https://prestodb.github.io/docs/current/installation/deployment.htmlhttps://blog.csdn.net/eason_oracle/article/details/531604911.1 下载:打开迅雷输入上面网址,点击下载:presto-server-0.216.tar.gz并上传到所有...原创 2020-05-21 17:39:40 · 156 阅读 · 0 评论 -
在两个kafka集群同步topic
在两个kafka集群同步topic目标:把debezium节点所在集群上的kafka集群的名为sysdata的topic同步到目标集群cdh上的kafka集群上。前提:在目标集群的相关节点的hosts文件配置好源集群主机信息。[root@master01 kafka]# vi /etc/hosts127.0.0.1 localhost localhost.localdomai...原创 2019-03-24 12:07:32 · 6691 阅读 · 1 评论 -
推荐系统
一 推荐系统的组成几乎所有的推荐系统应用都是由前 台的展示页面、后台的日志系统以及推荐算法系统3部分构成的1.展示页面:1.1 推荐结果的标题、缩略图以及其他内容属性 告诉用户给他们推荐的是什么。1.2 推荐结果的平均分 平均分反应了推荐结果的总体质量,也代表了大部分用户对这本书 的看法。1.3推荐理由1.4 收集反馈信息3.推荐算法系统:基于内容推荐协同过...原创 2019-03-24 12:18:43 · 368 阅读 · 0 评论 -
hive 创建(内外部)表 时 同时创建Hbase表
hive 创建内部表 时 同时自动创建Hbase表,删除Hive内部表时,也会自动删除hbase表CREATE TABLE student_hive_hbase(id int,name string,age int,height int)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPR...原创 2018-10-26 11:13:12 · 787 阅读 · 0 评论 -
大数据运维方向面试题
一、基础题1.请写出http和https请求的区别,并写出遇到过的响应状态码. 一、https协议需要到ca申请证书,一般免费证书很少,需要交费。二、http是超文本传输协议,信息是明文传输,https 则是具有安全性的ssl加密传输协议。 三、http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。四、http的连接很简单,是无...转载 2018-08-30 12:36:21 · 2563 阅读 · 0 评论 -
结构化、非结构化和半结构化数据 数据清洗
结构化数据** 结构化数据可以使用关系型数据库来表示和存储,如MySQL、Oracle、SQL Server等,表现二维形式的数据。可以通过固有键值获取相应信息。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。但是,显然,它的扩展性不好(比如,我希望增加一个字段)。**非结构化数据...转载 2018-08-14 08:12:03 · 13187 阅读 · 1 评论 -
从一个集群的hbase 读出数据 放到另一个集群的Hbase
object getData {//获取前一个集群的访问权限System.setProperty( “HADOOP_USER_NAME”, “AirConReader”)val conf = HBaseConfiguration.create()conf.set( “HBase的,zookeeper.quorum”, “10.2.5.203”)//设置HBase的客户端发起一...转载 2018-07-05 17:09:04 · 1104 阅读 · 0 评论 -
Hbase 读取流程概念详解、hbase基本操作、大批量的插入与读取、带条件的读取实现
声明:以下知识全部来源于转载,可以通过网址查看原创。 HBase——数据读写寻址 hbaseclient->zookeeper->ROOT表-META表(包含所有的用户空间region信息(列表),以及RegionServer的服务器地址。等 第一次读过来然后缓存到本地)->region->先从MemStore找数据,如果没有,再到StoreFile...转载 2018-07-02 11:04:25 · 1786 阅读 · 0 评论 -
转载 :Spark 学习: spark 原理简述与 shuffle 过程介绍
出处~ https://blog.csdn.net/databatman/article/details/53023818Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口.Spark学习 简述总结引言1 Hadoop 和 Spark 的关系Spark 系统架构1 spark 运行原理RDD 初识shuff...转载 2018-06-25 17:06:55 · 190 阅读 · 0 评论 -
4.mapreduce与spark的优虐
1.Spark是MapReduce的进阶架构2.Spark相对于MapReduce的优势MapReduce存在的问题1. MapReduce框架局限性 1)仅支持Map和Reduce两种操作 2)处理效率低效。 a)Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据; 任务调度和启动开销大; b)无法充分利用内存 c...转载 2018-06-01 11:28:16 · 1270 阅读 · 0 评论 -
hadoop ---mapreduce(映射化简)
1.Map/Reduce是什么大数据并行编程框架,由两个基本的步骤Map(映射)和Reduce(化简)组成,它隐藏了分布式计算中并行化、容错、数据分布、负载均衡等内部细节,实际的使用中普通编程人员/应用人员只需关系map/reduce两个过程的实现2.Map/Reduce的框架原理整个Map/Reduce框架包括3部分:JobClient、JobTracker、TaskTracker三部分组成,同...原创 2018-05-28 16:07:08 · 1241 阅读 · 0 评论 -
Hdoop 概念与理解
一.计算引擎 ----mapreduce1.map操作2.reduce操作3.spark4.mapreduce与spark的优虐二.分布式存储 ----hdfs1.文件备份(3份)2.数据如何在各个节点均匀分布3.如何映射到hive表4.块大小,为什么要设置这么大的块?5.hbase如何将data存储到hdfs6.导入数据到hdfs的几种方式(sqoop,kettel,spark datafram...原创 2018-05-25 16:03:33 · 576 阅读 · 0 评论 -
flume日志、zookeeper偏移量查询与设置
1.查询flume日志(INFO,ERROR)法1:(在网页cloudera manager-flume-配置-类别-日志-Flume Agent 日志目录 找/lvm/log/flume-ng)http://10.2.5.65:7180/cmf/process/all/logs/search法2:在命令行 [root@hadoop6 flume-ng]# cd /lvm/...原创 2019-01-03 20:46:50 · 747 阅读 · 0 评论 -
struct streaming
https://blog.csdn.net/dongyunlon/article/details/79037366详细说:水印与window函数https://blog.csdn.net/lovechendongxing/article/details/81748553?utm_source=blogxgwz6转载 2018-10-22 13:21:40 · 678 阅读 · 0 评论 -
关于大数据平台方向的一点理解
一、平台方向1.概念:就是构建这样一套组件: 从日志数据如何高效、稳定、安全、被清洗、被脱敏后进入存储节点到映射为表结构,再到为分析人员和算法人员 提供高效、稳定、安全、便捷的查询服务 (平台人员去做的事)。(分析人员去做的事)使得分析人员只需要写一个sql然后通过BI工具进行结果展示 或者采用web开发,进行web展示。算法人员可以根据相关组件拿到大量离线数据和实时数据去做数据建模和预测。平...原创 2018-10-22 12:29:01 · 1230 阅读 · 0 评论 -
kylin使用指南
一、一些维度概念1.Mandatory Dimensions(固定/普通维度):如果每次查询的group by中都会携带某些维度字段,则 将这些字段放入Mandatory Dimensions,可以将cuboid的个数减少一半2.Hierarchy Dimensions(层级维度):如果维度之间有层级关系,例如国家、省、城市,年、季度、月等。将这些表示层级关系的字段放入Hierarchy ...原创 2018-10-19 17:27:31 · 6876 阅读 · 0 评论 -
在3个节点的cdh5.14.4上进行kylin2.4.1 搭建
1. 官网:http://kylin.apache.org/cn/docs24/install/ 2.下载地址:https://archive.apache.org/dist/kylin/apache-kylin-2.4.1/3.在一个节点(slave02)创建目录 并将安装包解压mkdir /usr/local/apps/#通过xshell6将下载的压缩包 上传到该...原创 2018-12-24 10:33:45 · 380 阅读 · 0 评论 -
kafka from--kafka document
一.kafka是什么ApacheKafka®是一个分布式流媒体平台。流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 记录发生时处理流。也可以把他看作一个分布式文件系统 由于认真对待存储并允许客户端控制其读取位置,您可以将Kafka视为一种专用于高性能,低延迟提交日志存储,复制和传播的专用分...原创 2019-02-12 21:57:52 · 525 阅读 · 1 评论 -
dicrectIO
dicrectIO:是一种NIO(new IO)既不需要经过操作系统缓存,又不需要经过cpu move操作,以0拷贝的方式将数据从内存拉到用户空间的(buffer)磁盘文件上。速度比传统IO快得多 。采用dicrectIO的组件:kafka,netty通信框架,最新spark io,hadoop io 等分布式组件 。 ...原创 2018-10-12 13:57:46 · 159 阅读 · 0 评论 -
oozie Hue操作入门
一。直接在Hue操作1.创建文件 2. 3.4.5.6.7.8.9. 二。用命令行 从节点目录上传文件到hdfs节点目录:/home/yuwei/mydoc/test3.shhdfs目录:/user/yuwei/home/1.用hdfs 账户给“hdfs目录:/user/yuwei/ho...原创 2018-10-22 12:34:52 · 3534 阅读 · 0 评论 -
Dstream[Row] 数据批量导入Mysql 并去重(大致为如果数据库中有某行数据了,本次执行若有一行与数据库中的那行相同,则不会再插入进去)
def Save2Mysql(stateDStream: DStream[Row]): Unit = { stateDStream.foreachRDD { rdd => { rdd.foreachPartition(partitionRecords => { /* var conn: Connection = null ...原创 2018-10-22 12:33:19 · 575 阅读 · 0 评论