- 博客(8)
- 资源 (4)
- 收藏
- 关注
原创 IDEA 自动删除类中无用的import包
1.手动快捷键Ctrl + Alt + O2.配置自动清理Ctrl + Alt + S 打开设置然后,进行如下操作:IDEA会自动清理无引用的包。
2019-10-29 14:03:19 154
原创 MySQL如何创建主键,外键和复合主键
1.主键语法①创建时:create table sc (studentnoint,courseidint,scoreint,primary key (studentno) );②修改时:ALTER TABLE table_name ADD CONSTRAINT pk_name PRIMARY KEY(列名);前提是原先没有...
2019-10-28 14:36:33 3605
转载 Spark Streaming消费Kafka Direct保存offset到Redis,实现数据零丢失和exactly once
一、概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章,将offset存储到Redis,既保证了并发也保证了数据不丢失,经过测试,有效。二、使用场景Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉...
2019-10-22 10:59:07 233
转载 SparkStreaming踩坑之Kafka重复消费
1.问题描述使用SparkStreaming连接Kafka的demo程序每次重启,都会从Kafka队列里第一条数据开始消费。修改enable.auto.commit相关参数都无效。2.原因分析demo程序使用"KafkaUtils.createDirectStream"创建Kafka输入流,此API内部使用了Kafka客户端低阶API,不支持offset自动提交(提交到zookeepe...
2019-10-22 10:49:43 602
转载 Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以保存Direct方式的offset,但是可能会导致频繁写HDFS占用IO),所以每次出现问题的时候,重启程序,而程序的消费方式是Direct,所以在程序down掉的这段时间Kafka上的数据是消费不...
2019-10-22 10:35:01 300
转载 scala 读取txt文件(从文件读取)
文件格式分别如下package txtobject ReadTxt { def readFromTxtByLine(filePath:String) = { //导入Scala的IO包 import scala.io.Source //以指定的UTF-8字符集读取文件,第一个参数可以是字符串或者是java.io.File val sourc...
2019-10-17 15:49:02 2508
转载 tidb使用坑记录
1、对硬盘要求很高,没上SSD硬盘的不建议使用2、不支持分区,删除数据是个大坑。解决方案:set @@session.tidb_batch_delete=1;3、插入数据太大也会报错解决方案:set @@session.tidb_batch_insert=1;4、删除表数据时不支持别名delete from 表名 表别名where表别名.col = '1' 会报错...
2019-10-09 14:51:07 3958
转载 Dataframe中na.fill的用法
对两个数据表如A,B取JOIN操作的时候,其结果往往会出现NULL值的出现。这种情况是非常不利于后续的分析与计算的,特别是当涉及到对这个数值列进行各种聚合函数计算的时候。Spark为此提供了一个高级操作,就是:na.fill的函数。其处理过程就是先构建一个MAP,如下: val map =...
2019-10-04 22:15:49 4995
OpenSceneGraph三维渲染引擎设计与实践
2018-04-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人