大数据
文章平均质量分 66
大数据
`FUTURE`
一个普通的IT男,标配格子衫,牛仔库
展开
-
浅谈大数据之Flink-2
假设一个食堂的自助取餐流水线是一个流处理系统,每个就餐者前来就餐是它需要处理的事件,从就餐者到达食堂到他拿到所需菜品并付费离开的总耗时,就是这个就餐者的延迟。需要注意的是,吞吐除了与引擎自身设计有关,也与数据源发送过来的事件数据量有关,有可能流处理引擎的最大吞吐量远小于数据源的数据量。如果排队期间仍然有大量数据进入缓存,很可能超出系统的极限,就会出现反压(Backpressure)问题,这时候就需要一些优雅的策略来处理类似问题,否则会造成系统崩溃,用户体验较差。综上,延迟和吞吐是衡量流处理引擎的重要指标。原创 2023-10-16 15:38:20 · 574 阅读 · 0 评论 -
浅谈大数据之Why
大数据:顾名思义,就是拥有庞大体量的数据。业界将大数据的特点归纳为5个V。1.Volume:指数据量大,数据量单位从TB,PB,EB,ZB,YB2.Velocity:指数据生产速度快,数据要求的处理速度更快和时效性强,因为时间及时金钱,更快的数据处理速度可让我们基于最新的数据做出更加实时的决策。3.Variety:指数据类型繁多。数据可以是数字,文字,图片,视频等不同形式数据源可能是社交网络,视频网站,可穿戴设备以及各类传感器。原创 2023-10-16 11:42:54 · 201 阅读 · 0 评论 -
经典面试题整理----Kafka如何保证数据不会丢失以及不会重复消费问题
经典大数据面试题整理原创 2022-06-30 03:16:07 · 512 阅读 · 0 评论 -
Impala集群搭建报错,主节点启动成功,但是worker节点的impalad启动失败
1.报错信息如下impalad.ERROR:Running on machine: node1Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msgE0124 10:34:09.324137 30280 logging.cc:147] stderr will be logged to this file.2022-01-24 10:34:10,077 INFO util.JvmPauseMonitor: Starti原创 2022-01-24 14:17:28 · 1295 阅读 · 0 评论 -
优雅的使用awk获取文件信息
案例1: 读取文件某一列的字段为0的有多少条数据文件分隔符是|+|,需要转义awk -F '\\|\\+\\|' '$6==0 {print $6}' xxx.txt | wc -l就可以获取出来第六列数值为0的有多少条数据原创 2021-12-24 09:36:20 · 677 阅读 · 0 评论 -
Log4j漏洞及解决方案,亲测
log4j漏洞解决方案,亲测原创 2021-12-14 13:59:45 · 10257 阅读 · 0 评论 -
Flink读取文件目录问题解决方案,目录下的文件在上传中产生的临时文件报错等问题
Flink读取文件目录:因为目录下的文件可能会不断新增,在新增过程中文件处于传输阶段会出现比如01.data文件正在上传,在hdfs中显示的是01.data._COPYING_文件,只有真正上传完成后才能读取,而不设置过滤器的话就会报错,会提示._COPYING_文件不存在,所以像这样的临时文件需要我们过滤掉, 目前默认过滤器已经满足了我们的需求:方案如下/** * 2.流处理: 监听并读取hdfs文件夹目录下的所有文件 * * @throws Exception原创 2021-11-23 10:55:03 · 1887 阅读 · 0 评论 -
Scala_循环守卫
基本语法//就是在for推导式后面加了一个if判断,如果i=2直接跳过,(实现java中的continue用法)//就是把for循环体里面的if判断提到了推导里面,这样循环代码块会逻辑非常简洁,一目了然for(i <- 1 to 10 if i != 2) println(i)if就相当于是守门员,我们要按照这个条件去做判断,如果不符合条件的话就直接拒之门外,当天代码块就不做执行了,这个就特别像我们在java中for循环中用到的continue,在scala中用循环守卫来替代了...原创 2021-06-13 16:29:41 · 1391 阅读 · 1 评论 -
Scala源码解析---> 继承App
object AppTrait extends App { println("hello scala") //()=>{ // println("hello scala") //}}可以看到在这个类中直接可以可以输出,看源码得知App中有main方法,那么main方法是什么时候将这个println("hello scala)加载到main中的呢?/* * Scala (https://www.scala-lang.org) * * Copyright EPFL and原创 2021-06-10 21:24:01 · 288 阅读 · 0 评论 -
Scala语言的之基本语法
Scala数据类型Scala中一切数据都是对象, 都是Any的子类.Scala中数据类型分为两大类: 数值类型(AnyVal), 引用类型(AnyRef), 不管是值类型还是引用类型都是对象.Scala数据类型仍然遵守, 低精度的值类型向高精度值类型,自动转换(隐式转换)Scala中的StringOps是对Java中的String增强Unit: 对应 中的void, 用于方法返回值的位置, 表示方法没有返回值. Unit是一个数据类型, 只有一个对象就是(). Void不是数据类型, 只是一个关原创 2021-06-09 23:14:25 · 155 阅读 · 0 评论 -
Hive相关资料
1.Hive外部表与内部表被External修饰的为外部表(external table),反之为内部表(managed table) 默认情况下是内部表(MANAGED_TABLE)内部表数据由Hive自身管理, 外部表数据由HDFS管理内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse)外部表(External Table) 创建的时候需要加上External关键字, 并指定存储位置;删除内部表会把元数据以及存储数据原创 2021-05-28 17:02:27 · 323 阅读 · 0 评论 -
Hive的相关优化点
文章目录1.Hive相关函数说明2.Hive的基本优化3.Hive的小文件合并优化(CM上配置)1.Hive相关函数说明if函数格式: if(boolean testCondition, T valueTrue, T valueFalseOrNull)说明: 当参数1的条件成立时候, 返回参数2的数据, 否则返回参数3的数据nvl函数:格式: nvl(T value, T default_value)说明: 空值替换, 当参数1为null的时候返回参数2的数据,否则返回参数1的数据原创 2021-05-27 23:22:06 · 373 阅读 · 0 评论 -
Zookeeper集群一致性原理(强一致性)
Zookeeper集群一致性原理(强一致性)强一致性,弱一致性,最终一致性概念o强一致性概念步骤1修改了userName为beidouxing,步骤2读到的结果也一定是为beidouxing实现方式omysql主从复制非常迅速,同步o锁机制,必须等待mysql1数据同步到mysql2的时候,这个时候才可以读取o注意:在分布式领域中是很难保证强一致性o弱一致性概念允许数据库之间同步存在短暂延迟,步骤2读取userName内容为future而不必为beidouxing;这种我们称作为弱原创 2021-05-26 16:12:58 · 1475 阅读 · 0 评论