千淘万漉-CSDN博客

原创异常被抛出（不被catch）会导致flink任务挂掉

背景：实时效果数据中map的每条数据处理都需要一个单例的对象，这个单例对象的初始化在open方法中在map每次计算前都会判断此单例对象是否存在，如果不存在希望flink任务挂掉思路：如果发现对象为null，抛出异常，不catch空指针异常是运行时异常的子集，抛出哪个都可以，只是空指针异常语义更明确代码如下线上测试线上部署之后，在task日志，jobManager日志，Exception日志中均发现了空指针异常flink任务在反复重试几次之后失败（这需...

2020-07-16 18:11:47 2729 1

原创不用u盘如何在小米电视上安装电视直播软件

小米自带的应用商店，无法下载电视家这类的直播软件所以需要下载一个当贝市场网上的解决方案都是说用u盘下载一个当贝市场装上去如何不用u盘装呢？解决方案：先安装一个当贝助手，通过当贝助手安装当贝市场1.首先通过应用商店下载并安装当贝助手2.打开“网络测速”，网络测速结束后下面就会显示当贝市场3.下载并安装当贝市场4.在当贝市场搜索并安装电视家当贝助手，相当于电视的360软件管家可以安装软件，卸载软件，内存清理，一键加速，测网速等功能很好用...

2020-07-13 11:38:26 8954 2

原创 hive中reduce类函数说明

order by需要reduce操作，且只有一个reduce，与配置无关。数据量很大时，慎用。group by使用了reduce操作，受限于reduce数量，设置reduce参数mapred.reduce.tasks输出文件个数与reduce数相同数据倾斜，优化参数hive.groupby.skewindata为true，会启动一个优化程序，避免数据倾斜。...

2019-06-27 13:11:26 3780

原创 mapred任务性能优化本质上就是和shuffle搏斗-hive hadoop spark

hive中解决数据倾斜的思路1.由key为null值造成的倾斜，将空置变成字符串加随机数2.由group by造成的倾斜，map端聚合set hive.groupby.skewindata=true；hive.groupby.mapaggr.checkinterval=100000 (默认)hive.map.aggr.hash.min.reduction=0.5(默认)...

2019-06-27 12:16:12 583 1

原创 kafka的replica机制能保证不丢数据吗

不能kafka的replica机制完美的在可用性和一致性之间做了平衡，但是他仍然有丢失数据的风险消息写入主分片后，flowers会定时来拉取，如果超过时间都不来拉，直接就判定他死了，直接从isr中踢出去如果拉的太慢，相比主分片有较大延迟，比如副本分片所有的broker有gc异常，超过一个阈值认为是慢follower，也可以踢出去比如这个阈值设置为10，凡是延迟在10以内的都是isr...

2019-06-25 17:06:17 557

转载 Kafka设计解析（六）- Kafka高性能架构之道

本文从宏观架构层面和微观实现层面分析了Kafka如何实现高性能。包含Kafka如何利用Partition实现并行处理和提供水平扩展能力，如何通过ISR实现可用性和数据一致性的动态平衡，如何使用NIO和Linux的sendfile实现零拷贝以及如何通过顺序读写和数据压缩实现磁盘的高效利用。原创文章，转载请务必将下面这段话置于文章开头处。本文转发自技术世界，原文链接　http://www....

2019-06-19 21:22:02 294

转载 Hbase Bulk Loading与HBase API方式分析和对比

1.概述往hbase中批量加载数据的方式有很多种，最直接方式是调用hbase的API用put方法插入数据；另外一种是用MapReduce的方式从hdfs上加载数据，调用TableOutputFormat类在reduce中直接生成put对象写入HBase（这种方式可以看作多线程的调用hbase API方式）；但是这两种方式效率都不是很高。Bulk Load 方式调用MapReduce的job...

2019-06-19 11:40:42 822

转载 HBase结合MapReduce批量导入

Hbase是Hadoop生态体系配置的数据库，我们可以通过HTable api中的put方法向Hbase数据库中插入数据，但是由于put效率太低，不能批量插入大量的数据，文本将详细介绍如何通过MapReduce运算框架向Hbase数据库中导入数据。开篇先介绍业务场景：将电信手机上网日志中的数据导入到Hbase数据库中，将部分数据以及相应字段描述列出：图片格式描述：先介绍一个日期格...

2019-06-19 11:18:21 619

原创分布式存储入库过程本质上是建索引过程

不论对于什么数据库，druid es mysql hbase，凡是能实现秒级查询的数据库，无一不是借助将索引全部存入内存来加快索引。所以入库的过程本质上就是建索引的过程，这个建索引过程就是有master节点发起的一个mapred任务。索引只有两种：位图索引(druid hbase)，倒排索引（es）当开始调用java scala版本的插入数据，或者flink sink中的插入数据...

2019-06-18 11:10:26 438

转载 Scala操作Hbase

原文地址https://www.jianshu.com/p/0e0d6c7d8a42import java.io.IOExceptionimport org.apache.hadoop.hbase.{HBaseConfiguration, HColumnDescriptor, HConstants, HTableDescriptor, TableName}import org.apa...

2019-06-13 20:59:45 2412

转载 flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目

2019.03.08一、概述本篇文章主要介绍如何使用SparkStreaming + flume + Kafka 实现实时数据的计算，并且使用高德地图API实现热力图的展示。背景知识：在有些场合，我们需要了解当前人口的流动情况，比如，需要实时监控一些旅游景点旅客的密集程度，这时可以使用GPS定位系统将该区域内旅客的IP数据进行计算，但是GPS定位系统也有一定的缺点，不是每个旅客都会...

2019-06-13 20:53:45 887

转载 filebeat+kafka+Flink+ElasticSearch+springboot+高德地图热力图项目

原文地址https://www.jianshu.com/p/c148bf91c3ac2019.05.26由于近期在研究ELK和最新的实时计算框架Flink，所以把以前热力图项目flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目换组件重构一下。效果不会变好，可能更麻烦，性能更低，纯属应用一下最近研究的新组件和新计算框架。项目环境：fileb...

2019-06-13 20:49:20 4781 4

转载面试题：es 在数据量很大时（数十亿级别）如何提高查询效率啊？

面试题es 在数据量很大的情况下（数十亿级别）如何提高查询效率啊？面试官心理分析这个问题是肯定要问的，说白了，就是看你有没有实际干过 es，因为啥？其实 es 性能并没有你想象中那么好的。很多时候数据量大了，特别是有几亿条数据的时候，可能你会懵逼的发现，跑个搜索怎么一下 5~10s，坑爹了。第一次搜索的时候，是5~10s，后面反而就快了，可能就几百毫秒。你就很懵，每个用户第一次访问...

2019-06-11 19:26:48 590

转载掌握它才说明你真正懂Elasticsearch

文章比较长，建议仔细看完es本质也是数据库，只要是数据库，我们就要关心下面四个问题1.如何读2.如何写3.为何读快（索引）4.为何写快整篇文章都是围绕上面四点展开，最后就是监控转载地址https://mp.weixin.qq.com/s/cgpWEXGLYMitTgXaH5EvLA如果里面的图看不清，建议看原文51CTO传媒2019-05-08 10:15...

2019-06-11 17:44:36 1072

转载 Spark 性能优化——和 shuffle 搏斗

原文地址https://www.raychase.net/3788Spark 的性能分析和调优很有意思，今天再写一篇。主要话题是 shuffle，当然也牵涉一些其他代码上的小把戏。以前写过一篇文章，比较了几种不同场景的性能优化，包括 portal 的性能优化，web service 的性能优化，还有 Spark job 的性能优化。Spark 的性能优化有一些特殊的地方，比如实时性...

2019-06-01 22:38:48 256

转载 druid.io剖析

简介druid作为现在最有潜力的海量数据实时分析系统，在优酷广告团队中扮演者非常重要的角色整体架构现在已经用tranquility+indexing service替换realtime实时数据经由tranquility被推送到Indexing Service，然后生成索引(Segment)，同时提供来自用户的查询请求。当索引所在的时间段过去以后，Indexing Servic...

2019-05-31 18:52:15 599

转载快手 Druid 精确去重的设计和实现

原文地址https://toutiao.io/posts/9pgmav/preview分享嘉宾：邓钫元快手大数据编辑整理：王吉东内容来源：Druid中国用户组 MeetUp 6th出品社区：DataFun注：欢迎转载，转载请注明出处本次分享内容提纲：快手 Druid 平台概览 Druid 精确去重功能设计 Druid 其他改进 ...

2019-05-29 15:00:01 4903

原创 druid接入kafka indexing service整个流程

先介绍下我们的druid集群配置Overload 1台Coordinator 1台Middle manager 3台Broker 3台Historical一共12台，其中cold 6台，hot 6台druid版本：0.10, 0.9之后即可支持Kafka indexing service目前的druid主要用来做批量灌入，包括天级，小时级，五分钟级由于这个五分...

2019-05-23 21:42:40 3367 1

转载 Spark内存管理及优化

https://blog.csdn.net/dongdouzin/article/details/797531552018年03月30日 14:50:26Spark作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理，有助于更好地开发Spark应用程序和进行性能调优。如果提交的时候内存分配过大则占用资源，内存分配过小就容...

2019-05-08 23:23:23 623

转载 Spark 会把数据都载入到内存吗

https://forlan.iteye.com/blog/2377199前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换，这很可能是受两个概念的误导：1.RDD的定义，RDD是一个分布式的不可变数据集合2.Spark 是一个内存处理引擎如果你没有主动对RDDCac...

2019-05-08 23:09:43 1652 3

转载坑人无数的Redis面试题

Redis在互联网技术存储方面使用如此广泛，几乎所有的后端技术面试官都要在Redis的使用和原理方面对小伙伴们进行各种刁难。作为一名在互联网技术行业打击过成百上千名【请允许我夸张一下】的资深技术面试官，看过了无数落寞的身影失望的离开，略感愧疚，故献上此文，希望各位读者以后面试势如破竹，永无失败！看看美女，激活你的脑细胞Redis有哪些数据结构？字符串String、字典Hash、列表...

2019-04-28 18:41:13 329

原创机器上运行了四个tomcat，查看每个tomcat对应的端口号

ps -ef |grep tomcatnetstat -ntlp|grep pid

2019-04-26 18:25:24 3076

原创如何将本地项目上传github

登录GitHub，建一个空工程本地准备好工程，按照红框框出来的命令逐行执行对于idea自动生成的maven工程，里面有很多目录但是真正需要上传的只有pom.xmlsrc/下面是监控系统的第一次git上传，监控系统是一个单机版的springboot项目预处理的flink项目，也是只上传了这两个文件，连realtime_flink.imp我都没上传其他同学...

2019-04-26 18:23:05 167

原创 scala版本的redis连接个数超过上限

被redis连接池折磨有三天了，每次压测三个小时后在凌晨两点被运维通知，连接数超过上限用redis-cli命令连上redis, 输入info命令，看到连接数高达一万，真特么吓人，正常来说二十几个是正常的我用flink的24slots消费kafka的24个分区，正常来说就是24个左右如果着急找解决方案，直接看最后的代码就可以了交代下项目背景项目是用flink消费kafka中...

2019-04-26 18:16:55 607

原创看看谁的进程最费内存

ps auxw |head 1;ps auxw| sort -rn -k4|head -1分号前面的是提取表头我用hive -e 执行了一条sqlhive -e “select distinct android_id from hive_rcv_metrics where clicks>0 and day between 20190210 and 20190309" &...

2019-04-10 19:20:15 202

转载 Druid.io系列（二）：基本概念与架构

在介绍Druid架构之前，我们先结合有关OLAP的基本原理来理解Druid中的一些基本概念。1 数据以图3.1为例，结合我们在第一章中介绍的OLAP基本概念，按列的类型上述数据可以分成以下三类：时间序列(Timestamp)，Druid既是内存数据库，又是时间序列数据库，Druid中所有查询以及索引过程都和时间维度息息相关。Druid底层使用绝对毫秒数保存时间戳，默认使用ISO-86...

2019-04-10 18:07:30 253

转载 OLAP引擎这么多，为什么苏宁选择用Druid？

https://www.itcodemonkey.com/article/12448.html2018-12-24 17:44:08 分类：数据库开发来自：51CTO技术栈（微信号：blog51cto），作者：李成露，编辑：陶家龙、孙淑娟简介：苏宁易购 IT 总部大数据中心大数据平台研发工程师。多年大数据底层平台开发经验。现负责苏宁大数据底层平台的计算资源调度平台以及 Druid 平台的...

2019-04-10 17:28:21 1356

原创 druid灌库报错-Not enough direct memory

Druid灌库脚本提交之后，看灌库控制台，报错如下2) Not enough direct memory. Please adjust -XX:MaxDirectMemorySize, druid.processing.buffer.sizeBytes, druid.processing.numThreads, or druid.processing.numMergeBuffers: m...

2019-04-04 17:28:44 827

原创 druid灌库报错-灌库数据中的时间戳和json中的intervals

部门要搭建一套druid环境，买的是阿里云的服务overload使用一台机器，middleManager使用两台机器其他的查询组件也都部署在这三台机器上因为这几个节点设计indexService，也就是灌库任务，我们主要关心灌库下面是灌库过程中遇到的一堆坑druid灌库会启动hadoop的mr任务，会读s3上数据，会将生成的segment写到deep storage上。...

2019-04-04 17:24:45 1059

原创 sort求交集并集差集

uniq -u 取出只出现过一次的元素，用来求差集uniq -c group byuniq -d 取出出现次数大于等于2的元素，用来求交集sort 1 2 和cat 1 2 本质是一样的，只不过sort排序了所以求交集并集差集的关键不是在sort, 而是在uniq后面的选项如果单纯只有uniq, 就是单纯的去重，其实就是取并集所以sort a b|un...

2019-03-28 00:46:46 1321

原创 spark不能在遍历rdd过程中修改全局map

误区一：不能在遍历rdd过程中修改全局map这个是mutable包下map，是可修改的将foreach改成map也不行解决方法：先将rdd转成map，然后修改map，最后再转成rdd保存出来这样可能无法实现分布式，在master机器上完成计算本次需求背景：Spark代码输出的rdd(pkg1, 1）(pkg2, 1)但我想要的输出：(pkg1, ...

2019-03-20 01:05:24 2516

原创更换group.id时kafka从哪开始消费

设置消费者properties的两个参数consumer.group.idproperties.setProperty("auto.offset.reset", "earliest”) // latest注意：只要不更改group.id，每次重新消费kafka，都是从上次消费结束的地方继续开始，不论"auto.offset.reset”属性设置的是什么场景一：Kafka上...

2019-03-19 11:29:57 18571 7

转载 Scala解析Json字符串

1. 添加相应依赖Json解析工具使用的 json-smart，曾经对比过Java的fastjson、gson。Scala的json4s、lift-json。其中 json-smart 解析速度是最快的。 <dependency> <groupId>net.minidev</groupId> ...

2019-03-14 00:30:35 5156

原创 flink项目build artificts打成的jar包中没有主函数

问题描述今天把同事的一个包复制到我的工程下，然后正常打包，指定主函数，一切正常，然后将打成的jar包通过flink web页面提交任务，上传成功后总是显示没有主类，点击运行也是失败。然后我就把同事的代码删掉，重新打包还是不行。解决方案同事用的windows本，他说打开jar包，注意不是解压，把下面四个文件删掉就好了zip -d realtime_flink7.jar ME...

2019-03-14 00:25:19 1286

原创 linux上安装jdk的四种方式

没有介绍wget方式方法一：手动解压JDK的压缩包，然后设置环境变量1.在/usr/目录下创建java目录[root@localhost ~]# mkdir/usr/java (/usr/local/share/application)[root@localhost ~]# cd /usr/java2.下载，然后解压[root@localhost java]# curl -...

2019-03-14 00:19:12 178

原创第一次向线上提交flink任务遇到的一堆坑

flink版本flink1.7.0_scala2.12.tar.gz本项目包括内容1.从kafka消费，结果写入kafka2.中间有部分数据存入redis问题描述开始我没有注意scala版本问题，在pom中flink用的1.7.0，scala用的2.11.0，idea设置的scala环境也是2.11.0在本地编译运行完全正常，然后使用build artifa...

2019-03-14 00:13:02 8990 2

转载可能是目前颜值最高的开源BI工具-Superset

原文地址https://www.jianshu.com/p/5a8174af14b52018.05.30没有声音，再好的戏也出不来同样，没有可视化，再好的数据分析也不完美数据可视化是大数据的『最后一公里』简介Superset的Airbnb开源的数据可视化工具，目前属于Apache孵化器项目，主要用于数据分析师进行数据可视化工作 PS，Airbnb在数据方面做的很棒...

2019-03-04 13:41:08 8040 1

原创 application.conf和application.properties的区别

.conf 需要加 “”.properties 不需要“”import java.util.Propertiesimport java.io.FileInputStream//test.properties 里的内容为"ddd=5.6,1.2" def loadProperties():Unit = { val properties = new Prope...

2019-03-01 16:35:48 927

原创 git提交代码流程

使用git也快有两年了，今天将常用命令总结一下，我描述一个整个的开发流程架构师在gitlab上新建了一个项目，搭好了框架1.我作为开发者之一，首先git clone https://xx用idea打开项目，然后点开idea下面的console, 在这里面执行git命令刚进来自然是master分支，然后我们首先创建一个自己的分支并切换过去，命令如下git checkout -...

2019-02-27 20:08:25 55263 2

原创 idea中设置条件断点

循环有100万次，想找到符合条件的那次循环，在断点上设置条件在断点上右键，填入条件表达式，可以用&& 或者 ||连接多个条件

2019-02-27 01:44:21 575

空空如也

空空如也