liweihope
码龄7年
  • 120,160
    被访问
  • 88
    原创
  • 34,446
    排名
  • 71
    粉丝
关注
提问 私信
  • 加入CSDN时间: 2015-11-09
博客简介:

liweihope的博客

查看详细资料
  • 3
    领奖
    总分 234 当月 10
个人成就
  • 获得79次点赞
  • 内容获得28次评论
  • 获得307次收藏
创作历程
  • 4篇
    2022年
  • 4篇
    2021年
  • 1篇
    2020年
  • 97篇
    2019年
成就勋章
TA的专栏
  • Hive
    2篇
  • Spark
    7篇
  • MapReduce
    4篇
  • Scala
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
  • 数据库管理
    数据仓库
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive支持处理lzo压缩格式的数据统计查询

Hive支持处理lzo压缩格式的数据统计查询之前需要编译hadoop-3.2.2源码并支持lzo压缩,参考之前博客:编译hadoop-3.2.2源码并支持lzo压缩以上是前提。数据准备这里准备了一份379M的数据makedatatest.txt,用lzo压缩命令把文件压缩成makedatatest.txt.lzo,大小为158M,hdfs块大小为128M。[ruoze@hadoop001 data]$ lzop -v makedatatest.txt compressing makedatate
原创
发布博客 2022.02.11 ·
865 阅读 ·
0 点赞 ·
0 评论

HUE编译部署以及集成HDFS、YARN、HIVE及MYSQL

文章目录环境安装依赖下载Hue源码包:安装必要的依赖Node.js 安装编译HueHue部署以及集成HDFS、YARN、HIVE及MYSQLHUE与Hadoop集成(hdfs、yarn)Hue配置HUE与Hive集成HUE与MySQL集成初始化Hue的MySQL元数据启动hueHue界面验证验证hdfs验证Hive验证MySQL注意事项Hue是一个以Hadoop平台为基础的Web客户端工具,Hue不仅可以集成大数据平台的Hive、Impala、HBase、Solr等组件,提供易于操作的Web界面。通过使
原创
发布博客 2022.02.10 ·
1258 阅读 ·
0 点赞 ·
0 评论

spark-3.2.0修改源码编译,导入IDEA,连接Hive库

文章目录环境Spark修改spark-shell启动LOGO修改pom.xml文件编译源码导入IDEA连接Hive库验证spark-shell启动LOGO的修改环境参考官网:https://spark.apache.org/docs/3.2.0/building-spark.htmlThe Maven-based build is the build of reference for Apache Spark. Building Spark using Maven requires Maven
原创
发布博客 2022.02.10 ·
1196 阅读 ·
0 点赞 ·
0 评论

编译hadoop-3.2.2源码并支持lzo压缩

编译hadoop-3.2.2源码1.参考官网:https://github.com/apache/hadoop/blob/trunk/BUILDING.txt2.编译环境虚拟机:VM15Linux系统:Centos7Jdk版本:jdk1.8cmake版本:3.20.2Hadoop版本:3.2.2Maven版本:3.8.4Protobuf版本:2.5.0findbugs版本(可以不用):findbugs-3.0.1apache-ant版本(可以不用):apache-ant-1.10.
原创
发布博客 2022.01.27 ·
1171 阅读 ·
1 点赞 ·
0 评论

JAVA HDFS API编程二

java里面的设计模式:模板模式把骨架(这个骨架就用通用算法进行抽象出来)定义好,具体实现交给子类去实现。意思是说在模板里面只要把过程给定义好,具体怎么实现,这个模板方法是不关注的,具体的实现是又子类来完成的,可以有多个子类,每个子类实现的功能可以都不一样。定义一个模板类:package com.ruozedata.pattern.template;public abstract class Mapper { //setUp mapper clearUp三个方法都是抽象方法 /
原创
发布博客 2021.12.23 ·
440 阅读 ·
0 点赞 ·
0 评论

JAVA HDFS API编程

hdfs有很多命令,比如说hdfs dfs -ls,hdfs dfs -put, hdfs dfs -mkdir,hdfs dfs -cat,hdfs dfs -rm等等,一般操作hdfs都是通过hdfs的命令行进行操作。其实这些命令行的底层都是通过java代码来支撑的,再比如启动和关闭hdfs都是通过脚本来启动,这些脚本底层肯定都是通过代码来支撑的。举例:有时候需要把本地文件上传到hdfs,直接用hdfs的命令,先mkdir一个文件夹,然后用put命令即可上传。但是在工作当中,这些操作基本都是代码的。
原创
发布博客 2021.12.22 ·
999 阅读 ·
0 点赞 ·
0 评论

java单元测试junit

进行单元测试则需要添加junit的依赖:##JUnit is a unit testing framework for Java, created by Erich Gamma and Kent Beck.##对于java来说JUnit是一个单元测试的框架 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactI
原创
发布博客 2021.12.22 ·
351 阅读 ·
0 点赞 ·
0 评论

Hadoop伪分布式部署及常用操作

hadoop伪分布式部署之前有做过hadoop 2.x的部署,现在再做一下hadoop 3.x的部署。hadoop有三个组件:hdfs用来存储数据,mapreduce 用来计算(作业) ,yarn用来资源(cpu memory)和作业调度 。其实hadoop官方网站都有部署的步骤:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html下面根据官网这个来进行伪分布式部署
原创
发布博客 2021.12.03 ·
227 阅读 ·
0 点赞 ·
0 评论

Shell脚本中的并发

主要记录一下Shell脚本中的命令的并发和串行执行以及如何控制进程的数量。默认的情况下,Shell脚本中的命令是串行执行的,必须等到前一条命令执行完后才执行接下来的命令,但是如果我有一大批的的命令需要执行,而且互相又没有影响的情况下(有影响的话就比较复杂了),那么就要使用命令的并发执行了。看下面的代码:#!/bin/bash for(( i = 0; i < ${count...
转载
发布博客 2020.02.26 ·
251 阅读 ·
1 点赞 ·
0 评论

HiveQL执行过程

参考之前的博客:https://blog.csdn.net/liweihope/article/details/89740863Hive是基于hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并且提供SQL查询。讲SQL语句转换成MapReduce任务进行运行,实现简单的MapReduce统计,不必开发专门的MapReduce程序。hive的设计是为了减轻MapReduce...
原创
发布博客 2019.10.14 ·
944 阅读 ·
2 点赞 ·
0 评论

JVM深入浅出(二)

Java代码的执行流程以及字节码对于码农来说,写的都是一个一个的xxx.java文件,只有码农认识,机器是不认识这些文件的。这一堆的java文件必须要经过一个编译的过程,变成一堆的xxx.class文件,这个class文件是放在方法区里面(jdk1.8是MetaSpace)。这一堆的xxx.class文件要通过ClassLoader加载到运行时数据区。代码举例说明:编写一个java文件,...
原创
发布博客 2019.09.19 ·
85 阅读 ·
0 点赞 ·
0 评论

JVM深入浅出(一)

JDK版本:1.8官网:https://docs.oracle.com/javase/specs/jvms/se8/html/index.html学JVM的终极目标:生产环境上的性能调优。JVM的Server模式和Client模式的区别(了解)后面讲的重点以Server模式为主。因为当Windows操作系统为32位时,JVM默认使用Client模式,如果是其它操作系统,当2G 2C以上...
原创
发布博客 2019.09.18 ·
178 阅读 ·
0 点赞 ·
0 评论

JVM概要

JVM:Java Virtual Machine在面试中会JVM是经常被问的,关于JVM的常问问题一般有:JVM的内存结构;常用参数;垃圾回收机制以及算法以及各个算法的对比JVM调优以上四个问题占了80%,都回答出来已经差不多了。在这里我自己使用的都是JDK1.8。切记:JVM不同的版本,它的差别是非常大的。以8为主,跟7对比,跟9对比。面试的时候先说你的版本是什么。官方文...
原创
发布博客 2019.09.18 ·
97 阅读 ·
0 点赞 ·
0 评论

Spark Streaming整合Kafaka

文章目录Kafka版本选择环境准备zookeeper和kafka单节点部署启动zookeeper和kafkaSpark Streaming整合Kafaka依赖创建Direct StreamKafka版本选择Kafka属于Spark Streaming中的高级Sources。Kafka:Spark Streaming 2.4.3与Kafka broker版本0.8.2.1或更高版本兼容,跟0....
原创
发布博客 2019.10.06 ·
484 阅读 ·
1 点赞 ·
1 评论

Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)官网翻译

在设计上,Spark Streaming集成Kafka对于 0.10版本的类似于0.8版本(现在只讲Direct Stream,其它不管,这里没有receiver)。Spark StreamingKafka对于 0.10版本的集成提供了更简化的并行度,在Kafka分区和Spark分区之间是 1:1 的对应关系,能够去访问偏移量和元数据。在有receiver的Spark Streaming里,Sp...
原创
发布博客 2019.10.06 ·
170 阅读 ·
0 点赞 ·
0 评论

Spark Streaming之基本概念

文章目录依赖初始化StreamingContextDiscretized Streams (DStreams)Input DStreams and Receivers参考官网:http://spark.apache.org/docs/latest/streaming-programming-guide.html#basic-concepts上一节,初识了Spark Streaming,并做...
原创
发布博客 2019.10.06 ·
463 阅读 ·
0 点赞 ·
0 评论

初识Spark Streaming

参考官网:http://spark.apache.org/streaming/Spark Streaming特点Spark Streaming makes it easy to build scalable fault-tolerant streaming applications.Spark Streaming使得 去构建可扩展的能容错的流式应用程序 变得容易。(RDD容错体现在哪些...
原创
发布博客 2019.10.06 ·
191 阅读 ·
0 点赞 ·
0 评论

Spark-SQL之自定义数据源的构建

JDBC外部数据源JDBC编程实现的底层原理自己实现 去 自定义外部数据源
原创
发布博客 2019.07.07 ·
856 阅读 ·
2 点赞 ·
1 评论
加载更多