![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
h_sn999
这个作者很懒,什么都没留下…
展开
-
SparkStreaming教程
SparkStreaming教程概要Spark流是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同时可以使用由如map,reduce,join和window这样的高层接口描述的复杂算法进行处理。最终,处理过的数据可以被推送到文件系统,数据...转载 2020-02-05 21:00:25 · 498 阅读 · 0 评论 -
Spark Sql 加载json文件
package spark.demo.sqlimport org.apache.spark.sql.{ SparkSession}import org.apache.spark.{ SparkConf, SparkContext }object SqlJsonDemo { def main(args: Array[String]): Unit = { val conf = ...原创 2020-02-01 20:50:12 · 208 阅读 · 0 评论 -
Spark以反射方式创建DataFrame2
package spark.demo.sqlimport java.io.Serializableimport org.apache.spark.sql.{Dataset, Row, SparkSession}import org.apache.spark.{ SparkConf, SparkContext }object RDD2DataFrameReflectionDynamic...原创 2020-01-18 11:02:01 · 141 阅读 · 0 评论 -
Spark以反射方式创建DataFrame
package spark.demo.sqlimport java.utilimport java.util.{ArrayList, List}import org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{RowFactory, SparkSessio...原创 2020-01-18 10:47:14 · 197 阅读 · 0 评论 -
Java Scala 相互调用
Java语言的重要性自不必说,Scala运行在JVM上,运行时也会翻译成class字节码文件进行执行,所以两种语言本质上是同源的,互相之间的调用在编程时就显得很重要了。多两种语言都有所了解的兄弟来说,调用很简单,贴出代码,已做记录Scala代码/** * 伴生对象,与类共享名字,可以访问类的私有属性和方法 * 在object中一般可以为伴生类做一些初始化等操作 */obj...转载 2020-01-17 00:15:28 · 423 阅读 · 0 评论 -
Spark基础 DAG
为什么使用spark的原因是早期的编程模式MapReduce缺乏对数据共享的高效元语,会造成磁盘I/O 以及序列号等开销,spark提出了统一的编程抽象---弹性分布式数据集(RDD),该模型可以令并行计算阶段间高效地进行数据共享。spark处理数据时,会将计算转化为一个有向无环图(DAG)的任务集,RDD能够有效的恢复DAG中故障和慢节点执行的任务,并且RDD提供一种基于粗粒度变换的...转载 2020-01-15 20:47:06 · 197 阅读 · 0 评论 -
spark MLlib KMeansExample
简介sparkMLlib官网:http://spark.apache.org/docs/latest/ml-guide.htmlmllib是sparkcore之上的算法库,包含了丰富的机器学习的一系列算法。你可以通过简单的API来构建算法模型,然后利用模型来进行预测分析推荐之类的。它包含了一些工具,如:1)算法工具:分类、回归、聚类、协同等2)特征化工具:特征提取、转换、降...原创 2020-01-14 23:37:03 · 195 阅读 · 0 评论 -
logstash 条件判断语句
logstash 条件判断语句使用条件来决定filter和output处理特定的事件。logstash条件类似于编程语言。条件支持if、else if、else语句,可以嵌套。比较操作有:相等: ==, !=, <, >, <=, >=正则: =~(匹配正则), !~(不匹配正则)包含: in(包含), not in(不包含)布尔操作:and(与)...转载 2020-01-13 21:06:59 · 3293 阅读 · 0 评论 -
SpringBoot logback 的 MDC
Logback的设计目标就是审计、调试复杂的分布式应用。在分布式应用中,为了区分不同客户端的日志输出,往往为每个客户端实例化一个单独的logger。但是这样将导致大量日志的产生,而且增加了日志管理的负担。为此,Logback采用了更轻量级的技术,为一个客户端的每一个日志请求打上唯一识别的时间戳,而这是通过SLF4J的MDC实现的。为了给每个日志请求打上唯一识别的时间戳,必须利用请求的上下文...原创 2020-01-13 21:02:17 · 977 阅读 · 1 评论 -
Logstash To HDFS & 嵌套json拆解
下载插件:#git clone https://github.com/heqin5136/logstash-output-webhdfs-discontinued.git#lslogstash-output-webhdfs-discontinued安装logstash-output-webhdfs插件#cd logstash-output-webhdfs-discontinu...原创 2020-01-13 20:44:23 · 351 阅读 · 0 评论