![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 60
瑞 新
求职中 • Java全栈养成计划
公众号 • 让我遇见相似的灵魂
回复领取:竞赛 书籍 项目 面试
左手代码,右手吉他,这就是天下:如果有一天我遇见相似的灵魂 那它肯定是步履艰难 不被理解 喜黑怕光的。如果可以的话 让我触摸一下吧 它也一样孤独得太久。 不一样的文艺青年,不一样的程序猿。
展开
-
【快速入门大数据】Hadoop3.x新特性
3.x必须在java8环境为前提Common改进shell被重写 过时api方法可能被删除 向下兼容老版本命令hdfs改进(ec代替副本机制 50%提升空间利用率)删除编码方式支持两个以上的namenode(高可用 可用+备用)datanode平衡单个datanode管理多个磁盘目录。添加或替换磁盘导致datanode数据倾斜。现有hdfsbalanse没办法解决倾斜 ,使用新的diskbalance去cli解决对应临时端口冲突,改进yarn改进timeline历史原创 2021-01-23 12:58:50 · 2704 阅读 · 19 评论 -
【快速入门大数据】前沿技术拓展Spark,Flink,Beam
文章目录概览Sparkmr问题Spark特征Spark生态系统对比Hadoop生态系统开发语言及运行环境Scala&Maven安装配置SparkFlink分布式计算框架(流处理)概览Spark、Flink、BeamBeam编写完适用于Spark、Flink使用Sparkmr问题mr->spark?开发不爽 mr两个过程速度不快 m存硬盘r存hdfs框架多样性 批处理 流式处理Spark特征http://spark.apache.org/速度快 内存和磁盘 都比mr快易原创 2021-01-22 21:23:31 · 3830 阅读 · 55 评论 -
【快速入门大数据】Hadoop集成Spring的使用
官网sprng-hadoophttps://spring.io/projects/spring-hadoop添加依赖<dependencies> <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-hadoop</artifactId> <version>原创 2021-01-21 23:39:37 · 839 阅读 · 32 评论 -
【快速入门大数据】Hadoop分布式集群搭建
配置三台虚拟机环境复制三台虚拟机#修改hostnamevi /etc/hostnamehadoop01#设置全局ip127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6192.168.210.121 hadoop01192.168.原创 2021-01-20 14:33:48 · 3075 阅读 · 43 评论 -
【快速入门大数据】Hadoop项目实战-用户行为日志
用户日志用处分析行为推荐日志生成渠道服务端Ngnix统计前端统计Ajax日志内容意义判断购买的推广转化率,及时调整不同区域的投资推广判断页面包含的子页面是否合理离线数据处理架构数据采集Flume...原创 2021-01-18 22:32:04 · 1349 阅读 · 33 评论 -
【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce
文章目录导学大数据概述初识Hadoop概述核心组件HDFS分布式文件系统资源调度系统YARNMapReduce优势发展史生态系统发行版本选择企业应用案例导学开发环境学做镜像生态圈目录实战分析客户端登录日志与spring结合使用扩展及新技术大数据概述场景足球预判分析人物特性购物推荐来源4v特征量大、种类多、价值密度低、速度快技术采集-存储-分析-可视化技术架构挑战量大,无法用结构化数据库,关系型数据库经典数据库没有考虑数据多类别 比如json实时性的原创 2021-01-15 13:01:43 · 4176 阅读 · 46 评论