liweihope
码龄9年
关注
提问 私信
  • 博客:172,235
    动态:23
    172,258
    总访问量
  • 82
    原创
  • 2,198,660
    排名
  • 176
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2015-11-09
博客简介:

liweihope的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    289
    当月
    2
个人成就
  • 获得101次点赞
  • 内容获得44次评论
  • 获得450次收藏
  • 代码片获得343次分享
创作历程
  • 1篇
    2024年
  • 1篇
    2023年
  • 4篇
    2022年
  • 4篇
    2021年
  • 1篇
    2020年
  • 90篇
    2019年
成就勋章
TA的专栏
  • Spark
    34篇
  • Hive
    4篇
  • Scala
    5篇
  • MapReduce
    4篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink on Yarn的3种部署模式对比和总结

一个Job会对应一个Flink集群,每提交一个作业会根据自身的情况,都会单独向yarn申请资源,直到作业执行完成,一个作业的失败与否并不会影响下一个作业的正常提交和运行。Application Mode会在Yarn上启动集群, 应用jar包的main函数(用户类的main函数)将会在JobManager上执行. 只要应用程序执行结束, Flink集群会马上被关闭. 也可以手动停止集群.缺点: 如果提交的作业中有长时间执行的大作业, 占用了该Flink集群的所有资源, 则后续无法提交新的job.
原创
发布博客 2024.08.22 ·
446 阅读 ·
5 点赞 ·
0 评论 ·
6 收藏

大数据采集技术工具及应用场景

大数据采集工具
转载
发布博客 2023.03.13 ·
1296 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive支持处理lzo压缩格式的数据统计查询

Hive支持处理lzo压缩格式的数据统计查询之前需要编译hadoop-3.2.2源码并支持lzo压缩,参考之前博客:编译hadoop-3.2.2源码并支持lzo压缩以上是前提。数据准备这里准备了一份379M的数据makedatatest.txt,用lzo压缩命令把文件压缩成makedatatest.txt.lzo,大小为158M,hdfs块大小为128M。[ruoze@hadoop001 data]$ lzop -v makedatatest.txt compressing makedatate
原创
发布博客 2022.02.11 ·
1438 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

HUE编译部署以及集成HDFS、YARN、HIVE及MYSQL

文章目录环境安装依赖下载Hue源码包:安装必要的依赖Node.js 安装编译HueHue部署以及集成HDFS、YARN、HIVE及MYSQLHUE与Hadoop集成(hdfs、yarn)Hue配置HUE与Hive集成HUE与MySQL集成初始化Hue的MySQL元数据启动hueHue界面验证验证hdfs验证Hive验证MySQL注意事项Hue是一个以Hadoop平台为基础的Web客户端工具,Hue不仅可以集成大数据平台的Hive、Impala、HBase、Solr等组件,提供易于操作的Web界面。通过使
原创
发布博客 2022.02.10 ·
2562 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark-3.2.0修改源码编译,导入IDEA,连接Hive库

文章目录环境Spark修改spark-shell启动LOGO修改pom.xml文件编译源码导入IDEA连接Hive库验证spark-shell启动LOGO的修改环境参考官网:https://spark.apache.org/docs/3.2.0/building-spark.htmlThe Maven-based build is the build of reference for Apache Spark. Building Spark using Maven requires Maven
原创
发布博客 2022.02.10 ·
2039 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

编译hadoop-3.2.2源码并支持lzo压缩

编译hadoop-3.2.2源码1.参考官网:https://github.com/apache/hadoop/blob/trunk/BUILDING.txt2.编译环境虚拟机:VM15Linux系统:Centos7Jdk版本:jdk1.8cmake版本:3.20.2Hadoop版本:3.2.2Maven版本:3.8.4Protobuf版本:2.5.0findbugs版本(可以不用):findbugs-3.0.1apache-ant版本(可以不用):apache-ant-1.10.
原创
发布博客 2022.01.27 ·
1781 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

JAVA HDFS API编程二

java里面的设计模式:模板模式把骨架(这个骨架就用通用算法进行抽象出来)定义好,具体实现交给子类去实现。意思是说在模板里面只要把过程给定义好,具体怎么实现,这个模板方法是不关注的,具体的实现是又子类来完成的,可以有多个子类,每个子类实现的功能可以都不一样。定义一个模板类:package com.ruozedata.pattern.template;public abstract class Mapper { //setUp mapper clearUp三个方法都是抽象方法 /
原创
发布博客 2021.12.23 ·
612 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

JAVA HDFS API编程

hdfs有很多命令,比如说hdfs dfs -ls,hdfs dfs -put, hdfs dfs -mkdir,hdfs dfs -cat,hdfs dfs -rm等等,一般操作hdfs都是通过hdfs的命令行进行操作。其实这些命令行的底层都是通过java代码来支撑的,再比如启动和关闭hdfs都是通过脚本来启动,这些脚本底层肯定都是通过代码来支撑的。举例:有时候需要把本地文件上传到hdfs,直接用hdfs的命令,先mkdir一个文件夹,然后用put命令即可上传。但是在工作当中,这些操作基本都是代码的。
原创
发布博客 2021.12.22 ·
1489 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

java单元测试junit

进行单元测试则需要添加junit的依赖:##JUnit is a unit testing framework for Java, created by Erich Gamma and Kent Beck.##对于java来说JUnit是一个单元测试的框架 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactI
原创
发布博客 2021.12.22 ·
1467 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

Hadoop伪分布式部署及常用操作

hadoop伪分布式部署之前有做过hadoop 2.x的部署,现在再做一下hadoop 3.x的部署。hadoop有三个组件:hdfs用来存储数据,mapreduce 用来计算(作业) ,yarn用来资源(cpu memory)和作业调度 。其实hadoop官方网站都有部署的步骤:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html下面根据官网这个来进行伪分布式部署
原创
发布博客 2021.12.03 ·
1633 阅读 ·
2 点赞 ·
0 评论 ·
16 收藏

Shell脚本中的并发

主要记录一下Shell脚本中的命令的并发和串行执行以及如何控制进程的数量。默认的情况下,Shell脚本中的命令是串行执行的,必须等到前一条命令执行完后才执行接下来的命令,但是如果我有一大批的的命令需要执行,而且互相又没有影响的情况下(有影响的话就比较复杂了),那么就要使用命令的并发执行了。看下面的代码:#!/bin/bash for(( i = 0; i < ${count...
转载
发布博客 2020.02.26 ·
366 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

HiveQL执行过程

参考之前的博客:https://blog.csdn.net/liweihope/article/details/89740863Hive是基于hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并且提供SQL查询。讲SQL语句转换成MapReduce任务进行运行,实现简单的MapReduce统计,不必开发专门的MapReduce程序。hive的设计是为了减轻MapReduce...
原创
发布博客 2019.10.14 ·
1204 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

JVM深入浅出(二)

Java代码的执行流程以及字节码对于码农来说,写的都是一个一个的xxx.java文件,只有码农认识,机器是不认识这些文件的。这一堆的java文件必须要经过一个编译的过程,变成一堆的xxx.class文件,这个class文件是放在方法区里面(jdk1.8是MetaSpace)。这一堆的xxx.class文件要通过ClassLoader加载到运行时数据区。代码举例说明:编写一个java文件,...
原创
发布博客 2019.09.19 ·
156 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

JVM深入浅出(一)

JDK版本:1.8官网:https://docs.oracle.com/javase/specs/jvms/se8/html/index.html学JVM的终极目标:生产环境上的性能调优。JVM的Server模式和Client模式的区别(了解)后面讲的重点以Server模式为主。因为当Windows操作系统为32位时,JVM默认使用Client模式,如果是其它操作系统,当2G 2C以上...
原创
发布博客 2019.09.18 ·
523 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

JVM概要

JVM:Java Virtual Machine在面试中会JVM是经常被问的,关于JVM的常问问题一般有:JVM的内存结构;常用参数;垃圾回收机制以及算法以及各个算法的对比JVM调优以上四个问题占了80%,都回答出来已经差不多了。在这里我自己使用的都是JDK1.8。切记:JVM不同的版本,它的差别是非常大的。以8为主,跟7对比,跟9对比。面试的时候先说你的版本是什么。官方文...
原创
发布博客 2019.09.18 ·
166 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark Streaming整合Kafaka

文章目录Kafka版本选择环境准备zookeeper和kafka单节点部署启动zookeeper和kafkaSpark Streaming整合Kafaka依赖创建Direct StreamKafka版本选择Kafka属于Spark Streaming中的高级Sources。Kafka:Spark Streaming 2.4.3与Kafka broker版本0.8.2.1或更高版本兼容,跟0....
原创
发布博客 2019.10.06 ·
721 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)官网翻译

在设计上,Spark Streaming集成Kafka对于 0.10版本的类似于0.8版本(现在只讲Direct Stream,其它不管,这里没有receiver)。Spark StreamingKafka对于 0.10版本的集成提供了更简化的并行度,在Kafka分区和Spark分区之间是 1:1 的对应关系,能够去访问偏移量和元数据。在有receiver的Spark Streaming里,Sp...
原创
发布博客 2019.10.06 ·
370 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark Streaming之基本概念

文章目录依赖初始化StreamingContextDiscretized Streams (DStreams)Input DStreams and Receivers参考官网:http://spark.apache.org/docs/latest/streaming-programming-guide.html#basic-concepts上一节,初识了Spark Streaming,并做...
原创
发布博客 2019.10.06 ·
689 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多