StudyEverydayForward
码龄5年
求更新 关注
提问 私信
  • 博客:4,677
    4,677
    总访问量
  • 6
    原创
  • 7
    粉丝
  • 113
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:安徽省
目前就职: 合肥国轩高科动力能源有限公司
加入CSDN时间: 2020-04-28
博客简介:

m0_47444428的博客

查看详细资料
个人成就
  • 获得12次点赞
  • 内容获得0次评论
  • 获得3次收藏
  • 博客总排名1,957,958名
创作历程
  • 1篇
    2021年
  • 5篇
    2020年
成就勋章
TA的专栏
  • SparkStreaming
    1篇
  • hive
    1篇
  • SparkSql
    1篇

TA关注的专栏 21

TA关注的收藏夹 0

TA关注的社区 10

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hadoopspark
创作活动更多

『技术文档』写作方法征文挑战赛

在技术的浩瀚海洋中,一份优秀的技术文档宛如精准的航海图。它是知识传承的载体,是团队协作的桥梁,更是产品成功的幕后英雄。然而,打造这样一份出色的技术文档并非易事。你是否在为如何清晰阐释复杂技术而苦恼?是否纠结于文档结构与内容的完美融合?无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

55人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

FlinkKafkaProducer两阶段提交-TwoPhaseCommitSinkFunction过程简述

两阶段提交1 FlinkKafkaProducer继承了TwoPhaseCommitSinkFunction类2 TwoPhaseCommitSinkFunction类继承了RichSinkFunction类且实现了CheckPointedFunction接口以及CheckPointListener接口3 FlinkKafkaProducer重写了TwoPhaseCommitSinkFunction类...
原创
发布博客 2021.01.20 ·
1236 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

flink的transformation算子-keyBy

keyBy算子是将DataStream里的数据按照指定的key进行分组,具体实现可大致分为两类,1 传入的参数为下标值,这种一般只适用于DataStream里的数据类型为元组方可使用,2 传入的参数为keySelector或者其引用(java的lambda表达式),实现代码如下:import org.apache.flink.api.common.operators.Keys;import org.apache.flink.api.java.functions.KeySelector;import o
原创
发布博客 2020.08.31 ·
334 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

项目介绍

项目介绍项目整体介绍1.项目模型搭建此项目为数据仓库项目,主要是做离线计算的项目模型:项目分为流量域和业务域两个主题域,为了方便管理这么多数据,又将每个主题域划分为五个层级,分别是ODS层,DWD层,DWS层,ADS层及DIM层,分层的原因为解耦,复用,便于管理,下面我分别介绍一下项目中他们的应用场景1.1 ODS层ODS层:源数据层,分为流量域ODS层及业务域ODS层流量域ODS层:数据来源于日志服务器(用户行为日志数据(APP端和WEB端)),日志服务器将数据生产到Kafka,然后使用Fl
原创
发布博客 2020.08.17 ·
1292 阅读 ·
4 点赞 ·
0 评论 ·
1 收藏

SparkStreaming获取数据源的两种方式(监听端口号及整合kafka)

方式一:监听端口号,此方式需要先在linux上开启nc -lk 端口号服务,之后SparkStreaming可以从此端口拉取到数据,并进行实时处理,代码如下:import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, Spar
原创
发布博客 2020.07.22 ·
1004 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hive相关知识(一)

今天整理了一下hive的相关知识,其中包括hive原理及其表相关的一些内容,主要为个人理解:1.hive是什么有什么用?hive是数仓工具,可以抽取,转换,加载数据(ETL),Hive不适用于毫秒级的响应,因为其底层是调用MR程序在Yarn上运行操作hdfs上的结构化静态数据来实现处理数据的功能,但Hive将sql跟MR结合,可以实现多维度的查询,用户的学习成本较低,上手较为容易.2.hive工作原理Hive工作原理本质是将客户端发起的sql语句转换成底层的MR程序执行(1)hive接收到
原创
发布博客 2020.07.18 ·
204 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

SparkSql中生成DataFrame的四种方式

SparkSql中生成DataFrame的四种方式:方式一:定义一个case class类,将其作为RDD中的存储类型,然后导包import spark.implicts._ 最后直接调用RDD的方法即:toDF方法即可生成DataFrame,代码如下:import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}object DataFrameDemo1 { def main(args
原创
发布博客 2020.07.16 ·
606 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏