![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
每天demo
留歌留歌
只要最后那个人是你,晚一点也没关系
展开
-
WordCount程序【Spark Streaming版本】
~~前置~~Spark Streaming 常常对接 :本地文件、HDFS、端口、flume、kafkapackage february.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * ...原创 2019-02-22 16:48:53 · 314 阅读 · 3 评论 -
数据零丢失 + 仅一次消费数据【终极方案】
import java.sql.{DriverManager, ResultSet}import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apache.commons.lang3.StringU...原创 2019-08-16 16:27:34 · 254 阅读 · 0 评论 -
spark 各种骚操作 之日志统计分析 机会终于来了系列
import org.apache.spark.{SparkConf, SparkContext}/** * Description: 日志统计分析 * .collect().foreach(println) * .take(10).foreach(println) * * * 分隔符 , *map()是对每一行数据进行操作 *reduceByKey()是将相...原创 2019-08-02 16:52:50 · 469 阅读 · 0 评论 -
多文件的wc程序【java版】
package sanjin;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.SparkSession;import scala.Tuple2;import java.util.Array...原创 2019-03-08 09:40:48 · 218 阅读 · 0 评论 -
External DataSource 之parquet【Spark SQL】
package february.sqlimport org.apache.spark.sql.SparkSession/** * * ====== Spark SQL默认处理的format是parquet ==== * Description: Parquet 文件操作 * * 处理parquet数据 * spark.read....原创 2019-03-04 18:44:44 · 224 阅读 · 0 评论 -
csv数据文件清洗【DataFrame】
package march.sqlimport org.apache.spark.sql.SparkSession/** * Description: TODO * * @Author: 留歌36 * @Date: 2019/3/6 8:57 */object AllHouseAPP { def main(args: Array[String]): Unit =...原创 2019-03-07 08:58:44 · 1469 阅读 · 0 评论 -
DataFrame 转换为Dataset
写在前面:A DataFrame is a Dataset organized into named columns.A Dataset is a distributed collection of data.贴代码:package february.sqlimport org.apache.spark.sql.SparkSession/** * Description: ...原创 2019-02-27 09:39:03 · 3378 阅读 · 0 评论 -
HiveJdbcClient的操作 【Hive】
import java.sql.*;/** * Description: HiveJdbcClient的操作 * 修改默认的hiveserver2的启动端口: * $HIVE_HOME/bin/hiveserver2 --hiveconf hive.server2.thrift.port=14000 * $HIVE_HOME/bin/beeline -u jdb...原创 2019-03-05 19:25:49 · 344 阅读 · 0 评论 -
基于RDD实现简单的WordCount程序【含环境搭建】
写在前面因为觉得自己的代码量实在是太少了,所以,想着,每周至少写5个小的demo程序。现在的想法是,写一些Spark,Storm,MapReduce,Flume,kafka等等单独或组合使用的一些小的Demo。然后,我会尽力记录好,自己编码过程中遇到的问题,方便自己巩固复习。废话不多说,我们直接干吧。开发环境本地开发工具版本Spark2.2.0Scala2...原创 2019-02-21 10:45:58 · 716 阅读 · 0 评论 -
RDD转换为DataFrame【反射/编程】
先贴代码package february.sqlimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.sql.{Row, SparkSession}/** * Description: ============Spark...原创 2019-02-25 20:32:54 · 462 阅读 · 0 评论 -
基于API和SQL的基本操作【DataFrame】
写在前面:当得到一个DataFrame对象之后,可以使用对象提供的各种API方法进行直接调用,进行数据的处理。 // =====基于dataframe的API=======之后的就都是DataFrame 的操作了============== infoDF.show() infoDF.filter(infoDF.col("age") > 30).show()另,也可以...原创 2019-02-27 14:58:13 · 362 阅读 · 0 评论 -
Spark Streaming 整合Kafka的 Offset 管理 【数据零丢失之 checkpoint 方式管理Offset】
import kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Duration, Seconds, StreamingContext}/**...原创 2019-08-16 16:33:01 · 526 阅读 · 0 评论