lmh450201598
码龄15年
关注
提问 私信
  • 博客:28,048
    28,048
    总访问量
  • 22
    原创
  • 625,893
    排名
  • 10
    粉丝
  • 0
    铁粉

个人简介:产品经理

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 目前就职: 机器人公司
  • 加入CSDN时间: 2010-06-27
博客简介:

玩转大数据

博客描述:
hadoop、MapReduce、HDFS、Hive、Sqoop
查看详细资料
个人成就
  • 获得9次点赞
  • 内容获得2次评论
  • 获得44次收藏
创作历程
  • 1篇
    2022年
  • 21篇
    2020年
成就勋章
TA的专栏
  • java
    2篇
  • flume
    1篇
  • hadoop
    12篇
  • Sqoop
    1篇
  • hive
    3篇
  • Linux
    3篇
  • windows
    1篇
兴趣领域 设置
  • 大数据
    hadoop
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink Evictors(驱逐器)最全解释

Flink关于Evictors(驱逐器)的解释不多,因为默认是在element进入Window窗口聚合之前进行移除数据,这个能够满足绝多大多数应用场景。但对于element进入Window窗口聚合后并在Trigger触发计算操作之前移除数据, 即:Evictor类中的第2个方法evictAfter(),会在什么样的场景用到,这部分解释几乎是空白,因此,在此进行一个解释,希望能帮助到有需要的Flink开发者。
原创
发布博客 2022.04.03 ·
2709 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

jsp的内置对象

1、jsp的内置对象是指在jsp页面上可以直接使用的对象。有如下9个:内置对象类型outJspWriterrequestHttpServletRequestresponseHttpServletResponsesessionHttpSessionexceptionThrowablepageServlet(this)configServletConfigapplicationServletContextpageContext
原创
发布博客 2020.11.22 ·
358 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

关于路径的问题

在java编程中,路径可以分为3类:相对路径、绝对路径和内部路径。1、相对路径(1)当前路径:./ 或者 什么都不写(2)上一级路径:…/2、绝对路径(1)带协议和主机的(2)不带协议和主机的:/项目名/资源3、内部路径不带协议和主机的绝对路径去掉项目名即为内部路径,适用场景包括:请求转发(request)、静态包含(jsp)、动态包含...
原创
发布博客 2020.11.22 ·
1944 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume的安装和操作详解

ls | grep rpmsudo rpm -ivh telnet-server-0.17-59.el7.x86_64.rpmsudo rpm -ivh telnet-0.17-59.el7.x86_64.rpmnetstat -an | grep 44444a2.sources.r2.shell = /bin/bash -c意思是执行语句H24小时制h12小时制
原创
发布博客 2020.05.27 ·
467 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop安装、配置和操作详解

一、安装和配置Sqoop1、开启Zookeeper2、开启集群服务3、配置文件:sqoop-env.sh,如下:#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/opt/modules/cdh5.3.6/hadoop-2.5.0-cdh5.3.6#Set path to where hadoop-*-core.jar is availableexport HADOOP_MAPRED_HOME=/opt/m
原创
发布博客 2020.05.22 ·
1115 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hive数据仓库的具体操作

查看表的详细信息:hive > desc formatted t1;
原创
发布博客 2020.05.21 ·
1004 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Linux中查看文件编码格式及文件编码转换详解

一、查看文件编码格式在Vim中可以直接查看文件编码::set fileencoding即可显示文件编码格式。二、文件编码转换vim 使用vim直接进行文件的编码转换:set fileencoding=utf-8
原创
发布博客 2020.05.20 ·
470 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive的部署与安装详解

一、基本概念1、数据库与数据仓库数据库:mysql、oracle、sqlserver、DB2、sqlite、MDB;数据仓库:Hive,是MR的客户端,也就是说不必要每台机器都安装部署Hive。2、Hive的特性操作接口是采用SQL语法,HQL,避免了写MapReduce的繁琐过程。3、Hive体系结构(1)Client:终端命令行,其中,JDBC不常用,非常麻烦(相对于前者)(2)metastore:原本的数据集和字段名称以及数据信息之间的双射关系,目前是存储在Mysql中(3)Serv
原创
发布博客 2020.05.19 ·
997 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

YARN工作机制详解

YARN工作机制图如下(0)Mr程序提交到客户端所在的节点(1)yarnrunner向Resourcemanager申请一个application。(2)rm将该应用程序的资源路径返回给yarnrunner(3)该程序将运行所需资源提交到HDFS上(4)程序资源提交完毕后,申请运行mrAppMaster(5)RM将用户的请求初始化成一个task(6)其中一个NodeManager领...
原创
发布博客 2020.05.08 ·
450 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce程序运行流程详解

一、MapReduce整体运行流程流程示意图如下:(1)在MapReduce程序读取文件的输入目录上存放相应的文件。(2)客户端程序在submit()方法执行前,获取待处理的数据信息,然后根据集群中参数的配置形成一个任务分配规划。(3)客户端提交job.split、jar包、job.xml等文件给yarn,yarn中的resourcemanager启动MRAppMaster。(4)MR...
原创
发布博客 2020.05.07 ·
1713 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

MapReduce自定义部分详解

1、自定义InputFormat重写RecorderReader2、自定义Mapper3、自定义Partitioner分区4、自定义Key.compareTo排序自定义bean对象,实现comparable接口,重写compareTo方法5、自定义Combiner继承Reduce6、...
原创
发布博客 2020.05.07 ·
752 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

InputFormat数据切片机制、源代码详解及自定义InputFormat

在MapReduce中,MapTask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。而一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定,说白了,有多少个切片,就起多少个MapTask任务。如下图所示:下面,就InputFormat数据切片机制进行详细的说明。一、job提交数据切片的节点以WordCount的Driver程序(W...
原创
发布博客 2020.05.07 ·
543 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HDFS中的快照管理和回收站详细教程

一、快照管理快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。1、基本语法(1)hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能)(2)hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能,默认是禁用)(3)hdfs dfs -cr...
原创
发布博客 2020.04.28 ·
834 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HDFS中Hadoop存档(针对小文件存储)

每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽namenode中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB。Hadoop存档文件或HAR文件,是一个更高效的文件存档工...
原创
发布博客 2020.04.28 ·
312 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS中DataNode工作机制详解

HDFS集群包括,NameNode和DataNode以及Secondary Namenode。NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息;DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。一、DataNode工作机制一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一...
原创
发布博客 2020.04.28 ·
2226 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

HDFS中NameNode、Secondary NameNode介绍及工作机制详细教程

HDFS集群包括,NameNode和DataNode以及Secondary Namenode。NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息;DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本,Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。一、N...
原创
发布博客 2020.04.28 ·
3371 阅读 ·
2 点赞 ·
1 评论 ·
11 收藏

windows设置通过主机名访问网站

在日常开发过程中,我们经常需要通过主机名直接访问网站,其实设置很简单,一共分为2步。Step1 打开hosts文件用记事本或者Nodepad++打开,路径为C:\Windows\System32\drivers\etc\hostsStep2 修改配置文件,将ip和主机名添加到下方# This file contains the mappings of IP addresses to hos...
原创
发布博客 2020.04.27 ·
2341 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS的操作教程(命令行、API和IO流)

一、HDFS命令行操作1、基本语法[root@hadoop102 hadoop-2.7.2]# bin/hadoop fs 具体命令2、常用命令实操(1)-help:输出这个命令参数[root@hadoop102 hadoop-2.7.2]# bin/hdfs dfs -help rm(2)-ls: 显示目录信息[root@hadoop102 hadoop-2.7.2]# had...
原创
发布博客 2020.04.27 ·
333 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop-2.7.2.rar

发布资源 2020.04.27 ·
rar

搭建hadoop集群的详细教程

这里,以搭建3台hadoop服务器的集群为例(更多台的原理是一样的),首先需准备好3台纯净的Linux服务器(用虚拟机克隆即可),并设置好相应的主机名和ip,具体教程见搭建hadoop运行环境的详细教程这里不再赘述。需要注意,为了方便演示,3台服务器的主机名假定分别为hadoop102、hadoop103、hadoop104,企业中真实使用的主机名会比这个要长。1、集群部署规划ha...
原创
发布博客 2020.04.26 ·
341 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多