Spark>SparkStreamingKafka 练习题

最新推荐文章于 2022-06-09 15:35:00 发布

BigMoM1573

最新推荐文章于 2022-06-09 15:35:00 发布

阅读量705

点赞数 1

分类专栏： SparkStreaming 文章标签： SparkStreaming

本文链接：https://blog.csdn.net/qq_44509920/article/details/105714829

版权

查看历史记录的命令
history | grep kafka
以下是RNG S8 8强赛失败后，官微发表道歉微博下一级评论

数据说明：
rng_comment.txt文件中的数据

字段	字段含义
index	数据id
child_comment	回复数量
comment_time	评论时间
content	评论内容
da_v	微博个人认证
like_status	赞
pic	图片评论url
user_id	微博用户id
user_name	微博用户名
vip_rank	微博会员等级
stamp	时间戳

1.1、在kafak中创建rng_comment主题，设置2个分区2个副本
1.2、数据预处理，把空行过滤掉
1.3、请把给出的文件写入到kafka中，根据数据id进行分区，id为奇数的发送到一个分区中，偶数的发送到另一个分区
1.5、使用Spark Streaming对接kafka之后进行计算

在mysql中创建一个数据库rng_comment

[root@node01 /]# mysql -uroot -p123456
mysql>create  databases rng_comment;
//切换
mysql>use rng_comment;
//查看表
mysql>show tables；

在数据库rng_comment创建vip_rank表，字段为数据的所有字段

create table vip_rank(
Indexx varchar(255) NOT NULL,
child_comment varchar(255) NOT NULL,
comment_time  varchar(255) NOT NULL,
content  varchar(255) NOT NULL,
da_v varchar(255) NOT NULL,
like_status varchar(255) NOT NULL,
pic varchar(255) NOT NULL,
user_id varchar(255) NOT NULL,
user_name varchar(255) NOT NULL,
vip_rank varchar(255) NOT NULL,
stamp varchar(255) NOT NULL,
PRIMARY KEY (‘indexx’)
)ENGINE=InnoDB AUTO_TNCREMENT=26 DEFAULT CHARSET=udf8;

在数据库rng_comment创建like_status表，字段为数据的所有字段
在数据库rng_comment创建count_conmment表，字段为时间，条数
1.5.1、查询出微博会员等级为5的用户，并把这些数据写入到mysql数据库中的vip_rank表中
1.5.2、查询出评论赞的个数在10个以上的数据，并写入到mysql数据库中的like_status表中
1.5.3、分别计算出2018/10/20 ，2018/10/21，2018/10/22，2018/10/23这四天每一天的评论数是多少，并写入到mysql数据库中的count_conmment表中

数据如下👇

数据过大，所以放到百度云上，失效请私信博主！
链接: https://pan.baidu.com/s/1jMsJbN9RLh5ItXFDXdwVjw 提取码: 1234

数据预处理，取出空行

package com.Job414.Job

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{
   DataFrame, SparkSession}
import org.apache.spark.{
   SparkConf, SparkContext}

object FilterNull {
   
  def main(args: Array[String]): Unit = {
   

    //处理数据的思路
    //1.2 需求：数据预处理，把空行过滤掉
    /*
    1 读取数据
    2 处理数据
        如果数据为空就删除掉，反之，就保留数据
    3写出数据
     */

    val spark: SparkSession = SparkSession.builder().appName("FilterNull").master("local").getOrCreate()

    //设置sparkcontext,用于读取数据
    var sc =spark.sparkContext
    //读取数据
    //txtFile是多有数据
    val txtFile: RDD[String] = sc.textFile("F:\\网课\\Spark\\spark练习\\4.14号练习题\\rng_comment.txt")

    //过滤数据
    val datas: RDD[String] = txtFil

最低0.47元/天解锁文章

BigMoM1573

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Spark>SparkStreamingKafka 练习题

查看历史记录的命令history | grep kafka以下是RNG S8 8强赛失败后，官微发表道歉微博下一级评论数据说明：rng_comment.txt文件中的数据字段字段含义index数据idchild_comment回复数量comment_time评论时间content评论内容da_v微博个人认证like_status...
复制链接

扫一扫