大道独行之BIGDATA
码龄7年
关注
提问 私信
  • 博客:14,694
    14,694
    总访问量
  • 6
    原创
  • 646,867
    排名
  • 4
    粉丝
  • 0
    铁粉

个人简介:人生充满着期待,梦想连接着未来

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-04-10
博客简介:

mitao666的博客

查看详细资料
个人成就
  • 获得9次点赞
  • 内容获得4次评论
  • 获得4次收藏
创作历程
  • 1篇
    2023年
  • 1篇
    2021年
  • 4篇
    2020年
成就勋章
TA的专栏
  • Flink
    1篇
  • 大数据
    2篇
  • 分布式架构
    1篇
  • SQL语句
    1篇
  • hive
    2篇
  • Hadoop
    1篇
  • MapReduce
    1篇
  • Shuffle
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Linux高级shell脚本

Linux之shell脚本编写
原创
发布博客 2023.08.07 ·
3374 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

2021-01-18

1.Flink双流Join总结:Join大体分类只有两种:Window Join和Interval Join。Window Join又可以根据Window的类型细分出3种: Tumbling Window Join Sliding Window Join Session Widnow Join Windows类型的join都是利用window的机制,先将数据缓存在Window State中,当窗口触发计算时,执行join操作; interval join也是利用state存储数据再.
原创
发布博客 2021.01.20 ·
3017 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

分布式如何进行解决大数据的存储与计算问题个人理解.md

发布资源 2020.12.02 ·
md

SQL万能模板之七步剖析--适合小白快速入门

SQL万能模板之七步剖析–适合小白快速入门SQL模板select 1 from 2 where 3 group by 4 having 5 order by 6 limit 71-决定了结果有哪些列:对数据源中数据列的过滤2-决定了查询数据的数据源是什么表、视图、join、子查询3-决定了对数据源中数据行的过滤:分组前的行的过滤4-决定了按照哪一列的值进行分组:一般都会搭配聚合函数在group by语句中,1位置中的列要么是分组的字段,要是是聚合函数的结果5-决定了对分
原创
发布博客 2020.12.02 ·
2937 阅读 ·
2 点赞 ·
3 评论 ·
1 收藏

多线程基础总结.xmind

发布资源 2020.12.02 ·
xmind

Hadoop运行机制理解心得

Hadoop运行机制理解心得Shuffle过程Map端ShuffleSpill:将MapTask处理好的数据写入磁盘所有MapTask的数据会先进行分区标记所有标记完成的数据会被写入一个环形缓冲区【内存:100M】当缓冲区达到存储阈值80%,这部分就被锁定,准备溢写对着80%中的K2V2进行排序:相同分区的数据放在一起内存:快排将这部分数据写入磁盘变成小文件最终每个MapTask会产生很多个有序的小文件Merge:将每个MapTask对应的所有小文件进行合并成一个
原创
发布博客 2020.12.02 ·
1472 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

分布式如何进行解决大数据的存储与计算问题个人理解

分布式如何进行解决大数据的存储与计算问题个人理解分布式:如何解决大量数据的计算和存储问题的?问题1:为什么不用MySQL存储和分析计算?数据量大,MySQL存储不了即使能存储,处理的性能也很差数据的价值会随着时间的流逝而逐渐降低离线架构:以一定时间为单位处理数据今天处理昨天的数据,时效性比较慢【分钟及以上级别】实时架构:以数据生成为单位处理数据数据产生一条处理一条,时效性比较高【ms级别】数据种类的多样化问题2:如何解决数据大无法存储或者计算的问题?
原创
发布博客 2020.12.02 ·
1865 阅读 ·
5 点赞 ·
0 评论 ·
1 收藏

hive优化基础1

1.hive优化基础1开启分桶 set hive.enforce.bucketing=true;设置reduce个数 set mapreduce.job.reduces=3;hive表 ->orc和parquet -->ZLIB或snappy Parquet是面向分析型业务的列式存储格式fetch抓取: 在全局找、字段查找、limit查找等都不走mapreduce. set hive.fetch.task.conversion=more;默认为 none.本地模式 :a.
原创
发布博客 2020.12.02 ·
2028 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

机械设计控制部分原理图

发布资源 2018.04.10 ·
dwg