Spark实战
Movle
this is the way
展开
-
Spark实战-在Spark Shell中开发一个wordcount程序
1.读取一个本地文件,将结果打印到屏幕上。注意:示例必须只有一个worker 且本地文件与worker在同一台服务器上。scala> sc.textFile("/opt/TestFile/test_WordCount.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect2.读取一个hdfs文件,进行WordCount操作,并将结果写回hdfsscala> sc.textFile("hdfs://hadoop:9原创 2020-05-19 17:41:55 · 492 阅读 · 0 评论 -
Spark实战-用Scala编写WordCount程序
一.添加pom依赖:pom.xml<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId>原创 2020-05-19 17:44:25 · 3884 阅读 · 0 评论 -
Spark Core实战:解析Tomcat日志
1.Tomcat日志格式:localhost_access_log.txt192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/head.jsp HTTP/1.1" 200 713192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "原创 2020-05-19 17:45:50 · 258 阅读 · 0 评论 -
Spark Core实战-创建自定义分区
1.Tomcat日志格式:192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/head.jsp HTTP/1.1" 200 713192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/body.jsp H原创 2020-05-19 17:47:16 · 264 阅读 · 0 评论 -
Spark Core实战-将Tomcat日志分析的结果写入mysql数据库
1.Tomcat日志和前面一样2.需求:将Tomcat日志分析的结果:jps的名称和个数统计,并插入mysql数据库3.在mysql(本地,我的是MacOS)中建库建表:create database company;create table mydata( jsname varchar(50), countNumber int(11));4.编写代码:(1)添加pom依赖:<!-- https://mvnrepository.com/ar原创 2020-05-19 17:50:45 · 258 阅读 · 0 评论 -
Spark Core实战:使用JDBC RDD操作数据库
1.需求:使用JDBC RDD 操作数据库2.在数据库中建表并插入数据:create table emp( id int(11), ename varchar(20), deptno int(11), sal int(11));insert into emp values(1,"Tom",10,2500);insert into emp values(2,"M原创 2020-05-19 17:52:26 · 501 阅读 · 0 评论 -
Spark SQL实战:使用SparkSession创建DataFrame执行sql
1.需求:在IDEA中编写代码,创建DataFrame 执行sql命令:2.数据源:student.txt1 tom 152 lucy 203 mike 183.编写代码:(1)添加依赖:pom.xml<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version原创 2020-05-19 17:53:35 · 1870 阅读 · 0 评论 -
Spark SQL实战:使用 case class 创建DataFrame
1.需求:使用 case class 创建DataFrame2.数据源:student.txt1 tom 152 lucy 203 mike 183.编写代码(1)添加依赖:pom.xml<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1原创 2020-05-19 17:54:40 · 1278 阅读 · 0 评论 -
Spark SQL实战:将结果写入 Mysql
1.需求:读取本地student.txt,并创建DataFrame,并将结果写入mysql数据库中2.数据源:student.txt1 tom 152 lucy 203 mike 183.写代码:(1)添加依赖:pom.xml<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId>原创 2020-05-19 17:56:39 · 1416 阅读 · 0 评论 -
Spark SQL实战:使用Spark SQL 连接hive ,将统计结果存储到 mysql中
1.需求:使用Spark SQL 连接hive ,读取数据,将统计结果存储到 mysql中2.将写好的代码打包上传的集群,然后提交spark运行,前提是hive,HDFS已经启动3.代码:(1)pom.xml<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>原创 2020-05-19 17:57:47 · 1793 阅读 · 1 评论 -
Spark SQL实战:SparkSQL exmple
1.需求:使用Spark SQL,读取文件并查询数据表2.代码:(1)pom.xml<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.0</version></dependency><!-- https://mvnr原创 2020-05-19 17:59:13 · 355 阅读 · 0 评论 -
Spark SQL实战之UDF与UDAF的使用
1.概念:UDF就是用户自定义的函数UDAF就是用户自定义的聚合函数2.代码:(1)pom.xml<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.0</version></dependency><!-- http原创 2020-05-19 18:00:16 · 299 阅读 · 0 评论 -
Spark Streaming实战:写一个wordcount程序,统计从netcat中向端口发送的数据
1.需求:通过spark streaming统计端口号1234中的信息2.编写代码:(1)添加依赖: <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId>原创 2020-05-19 18:02:25 · 384 阅读 · 1 评论 -
Spark Streaming实战:设置检查点,写一个wordcount程序并计数,计算端口号1235中的信息
1.需求:用spark Streaming写一个wordcount程序,计算发往端口号1235中的信息(单词计数)2.代码:(1)pom.xml <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spar原创 2020-05-19 18:05:17 · 238 阅读 · 0 评论 -
Spark Streaming实战:窗口操作,每10秒,把过去30秒的数据取出来(读取端口号1235中的数据)
1.需求:窗口操作,每10秒,把过去30秒的数据取出来窗口长度:30秒滑动距离:10秒2.代码:(1)pom.xml<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId&原创 2020-05-19 18:07:03 · 694 阅读 · 0 评论 -
SparkStearming实战:集成Spark SQL,使用SQL语句进行WordCount
1.需求:集成Spark SQL,使用SQL语句进行WordCount2.代码:(1)pom.xml<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId>原创 2020-05-19 18:08:25 · 197 阅读 · 0 评论 -
SparkStreaming实战:处理文件流
1.需求:利用SparkStreaming处理文件流:2.代码:(1)pom.xml<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> <原创 2020-05-19 18:09:33 · 744 阅读 · 0 评论 -
SparkStreaming 实战:处理RDD队列流
1.需求:利用SparkStreaming处理RDD队列流2.代码:(1)pom.xml<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> &l原创 2020-05-19 18:10:45 · 930 阅读 · 0 评论 -
SparkStreaming实战:处理来自flume push方式发来的数据
1.需求:SparkStreaming处理来自flume push方式发来的数据,即flume将数据推给spark Streaming2.代码:(1)pom.xml<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apach原创 2020-05-19 18:12:21 · 143 阅读 · 0 评论 -
SparkStreaming实战:处理来自flume pull方式发来的数据
1.需求:处理来自flume pull方式发来的数据2.代码:(1)pom.xml<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> <a原创 2020-05-19 18:14:33 · 162 阅读 · 0 评论