笔记
lazyman001
这个作者很懒,什么都没留下…
展开
-
hive的动态静态分区
1 动态分区必须根据字段里的值来分区,动态分区是根据数据的某个字段值分到对应分区2 静态分区就是你把这批数据统一写到指定分区,表里没这个字段3 load的时候一定是静态分区,表中存不存在分区字段不会报错,但是load必须指定分区...原创 2021-05-11 09:49:22 · 109 阅读 · 0 评论 -
spark读redis,JAVA版
SparkConf sparkConf = new SparkConf().setAppName(“MyApp”).setMaster(“local[*]”).set(“spark.redis.host”, “localhost”).set(“spark.redis.port”, “6379”);RedisConfig redisConfig = RedisConfig.fromSparkConf(sparkConf);ReadWriteConfig readWriteConfig = Read原创 2021-01-26 16:57:11 · 454 阅读 · 0 评论 -
spark.textfile读取目录
spark.textfile读取目录1 需要在路径后加才可以读取目录下的所有文件2 如果目录下还有目录,需要//*等等来获取所有目录原创 2020-12-24 16:01:32 · 274 阅读 · 1 评论 -
spark的闭包
spark的闭包val a =nullrdd.foreach(x =>{a = x })因为闭包无法将x的值传递给x在外面打印有两种方法1 rdd.collect讲值返回driver2使用累加器方式原创 2020-12-24 15:48:34 · 178 阅读 · 0 评论 -
sparksteaming与kafka手动保存offset
1 如果读取存在数据库fromoffset数据为空,那么offset会优先从kafka中获取上次的offset,2 如果用DB方式存读offset,此时fromoffset为空,也没有手动保存offset到kafka当中,那么每次起程序都会读取之前保存在kafka中的offset,知道手动将offset保存到kafka当中下次读取才回改变...原创 2020-12-07 18:11:22 · 150 阅读 · 0 评论 -
sparkstreaming需要每个批次都可以打印出数据
sparkstreaming需要每个批次都可以打印出数据此时需要用到foreachrdd原创 2020-11-02 11:17:15 · 125 阅读 · 0 评论 -
2020-11-02
sparkstreaming需要没个批次都可以打印出数据此时需要用到foreachrdd原创 2020-11-02 11:16:32 · 85 阅读 · 0 评论