- 博客(31)
- 资源 (11)
- 收藏
- 关注
原创 hadoop之多job串联(倒排索引案例)(15)
目录需求原始数据期待的结果:思路码代码0.封装一个测试类1.job12.job2需求需求:有大量的文本(文档、网页),需要建立搜索索引原始数据a.txtmapreduceMapReduceindex Inverted indexInverted index倒排索引大数据hadoop MapReduce hdfsInverted index在这里插入代码片b.txt...
2019-06-23 01:33:50 400
原创 hadoop之Map join和Reduce join (13)
目录Map join(Distributedcache分布式缓存)使用场景解决方案具体办法: 采用distributedcache实例:reduce join1)原理:2)该方法的缺点Map join(Distributedcache分布式缓存)使用场景一张表十分小、一张表很大。解决方案在map端缓存多张表,提前处理业务逻辑,这样增加map端业务,减少reduce端数据的压力,尽可能的减...
2019-06-21 16:21:35 783
原创 hadoop之数据压缩(12)
目录hadoop雅俗概述MR支持的压缩编码压缩方式选择1.Gzip压缩2.Bzip2压缩3.Lzo压缩4.Snappy压缩5.压缩位置选择6.压缩实战hadoop雅俗你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。概述压缩技术能够有效减少底层存储系统(HDFS)读写...
2019-06-21 08:33:22 233
原创 Hadoop Mapreduce分区、分组、连接以及辅助排序(也叫二次排序)过程详解
目录1、MapReduce中数据流动2、Mapreduce中Partition的概念以及使用。1)Partition的原理和作用2)Partition的使用3、MapReduce中Combiner的使用4、Shuffle阶段排序流程详解5、MapReduce中辅助排序的原理与实现(1)任务2)工作原理3)实现代码1 首先说一下工作原理:2 二次排序就是首先按照第一字段排序,然后再对第一字段相同的...
2019-06-19 06:30:14 639
转载 hadoop之mapreduce的wordcount程序(10)
目录MapReduce入门1.MapReduce定义2.MapReduce优缺点优点缺点3. MapReduce核心思想4.MapReduce进程5.MapReduce编程规范开局一把刀,装备全靠打。我们开局先讲概念,然后执行下hadoop自带的一个wordcount程序,相当于我们java中的hello word。然后自己动手写个wordcount程序,在win10下看下效果,最后部署到服...
2019-06-10 10:57:32 440
转载 hadoop之HDFS工作机制(9)
目录HDFS 工作机制1.HDFS写数据流程①剖析文件写入又到了一堆理论时间了,可是不知道理论,只会无脑复制拷贝代码也太low了吧。关键的是知道全貌,才能更好的完成细节。HDFS 工作机制1.HDFS写数据流程①剖析文件写入1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 b...
2019-06-09 23:23:11 570
原创 hadoop之操作window下HDFS API编程(8)
目录代码操作HDFS1.准备:window10下配置hadoop环境配置环境变量2.通过API操作HDFS1) HDFS获取文件系统代码操作HDFS前面都是hdfs的命令行概念,概念这东西一旦会了,会手痒,所以我们可以通过java程序代码操作hdfs。1.准备:window10下配置hadoop环境配置环境变量准备hadoop-2.8.4.tar.gz,解压到一个不是c盘的地方,配置环境...
2019-06-09 07:37:26 1029 1
原创 hadoop之hdfs概念(7)
目录HDFS1.概念2.组成3.HDFS 文件块大小HDFS1.概念HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。2.组成1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。2)...
2019-06-08 10:45:53 200
原创 hadoop完全分布式环境搭建实操(6)
目录完全分布式环境搭建实操1.前提条件2.修改伪分布式环境的几个hadoop的配置文件完全分布式环境搭建实操1.前提条件默认你已经安装好了一台 伪分布式环境,我的是bigdata121默认你已经看了前面的第5篇文章,完全分布式的规划和步骤,现在只讲实际操作2.修改伪分布式环境的几个hadoop的配置文件需要配置的文件...
2019-06-07 17:35:32 334
原创 hadoop完全分布式环境搭建知识准备(5)
目录hadoop完全分布式环境搭建1.集群规划2.机器上需要配置的内容hadoop完全分布式环境搭建1.集群规划bigdata121bigdata122bigdata123HDFSNameNode SecondaryNameNode DataNode...
2019-06-07 17:00:50 318
原创 hadoop伪分布式部署(4)
目录伪分布式部署规划伪分布式部署规划咋规划啊,就一个电脑,但是部署的内容还是知道的,麻雀虽小,五脏俱全。每个hadoop环境,包含一个hdfs和一个yarn。具体如下架构bigdata111作用HDFSNameNode存储元数据SecondaryNameNode监控namenode 的元数据,每隔一定的时间进行元数据的合并DataNode存储...
2019-06-06 23:19:29 252
原创 hadoop分布式部署准备之免密码登录(3)
目录需求操作1.在xshell上设置一键控制3个窗口2.生成公钥和私钥3.将公钥拷贝到要免密登录的目标机器上取消步骤1的一键控制3个面板窗口,在bigdata121上分别执行下面的命令在bigdata122执行和机器bigdata121一样的3条命令在bigdata123执行和机器bigdata121一样的3条命令总结和理论需求现在有3台centos7虚拟机,分别为bigdata121,big...
2019-06-06 23:01:19 434
原创 hadoop运行环境搭建准备(2)
目录1.准备:2.环境配置关闭防火墙关闭Selinux(可选)修改IP1. vi /etc/sysconfig/network-scripts/ifcfg-ens332. vi /etc/resolv.conf3.重启网卡:4.修改主机名5.IP和主机名关系映射6.在bigdata121上分别发送这个文件到bigdata122和bigdata123上7.在windows上修改hosts(可选)3....
2019-06-06 22:20:44 224
转载 hadoop概论(1)
1.项目起源• Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发Google是Hadoop的思想之源(Google在大数据方面的三篇论文)• GFS ====> ...
2019-06-06 21:36:06 241
原创 OutputFormat接口实现类案例
目录OutputFormat接口实现类1)文本输出TextOutputFormat2)SequenceFileOutputFormat3)自定义OutputFormat案例运行结果:![在这里插入图片描述](https://img-blog.csdnimg.cn/20190626154027678.png?x-oss-process=image/watermark,type_ZmFuZ3poZW...
2019-06-26 15:41:29 441
原创 InputFormat接口实现类案例
目录1)TextInputFormat2)KeyValueTextInputFormat3)NLineInputFormat4.自定义InputFormat1)概述2)案例实操MapReduce任务的输入文件一般是存储在HDFS里面。输入的文件格式包括:基于行的日志文件、二进制格式文件等。这些文件一般会很大,达到数十GB,甚至更大。那么MapReduce是如何读取这些数据的呢?下面我们首先学习I...
2019-06-26 15:18:19 833
转载 ionic4集成高德地图
https://blog.csdn.net/z15802933724/article/details/82500215https://blog.csdn.net/zhangxing52077/article/details/53997893
2019-06-24 11:50:15 527
原创 angular定义数组的三种方式
//方式1:定义数组 public arr=['1111','2222','33333']; //方式2: 推荐 public list:any[]=['我是第一个新闻',222222222222,'我是第三个新闻'];//方式3: public items:Array<string>=['我是第一个新闻','我是第二个新闻'];...
2019-06-20 11:47:56 10029
原创 mapreduce辅助排序和序列化的实例练习
目录需求数据思路码代码beanmap分组比较器(辅助排序)分区reduce测试job任务查看结果需求数据0000001 Pdt_01 222.80000002 Pdt_06 722.40000001 Pdt_05 25.80000003 Pdt_01 222.80000003 Pdt_01 33.80000002 Pdt_03 522.80000002 Pdt_04 122.4...
2019-06-20 06:42:00 299
转载 mapreduce案例实战-排序和二次排序案例
目录1.数据:2.需求3.代码1)序列化的bean对象,用于保存展示数据2)mapper3)reduce4)测试类1.数据:0000001 Pdt_01 222.80000002 Pdt_06 722.40000001 Pdt_05 25.80000003 Pdt_01 222.80000003 Pdt_01 33.80000002 Pdt_03 522.80000002 Pdt...
2019-06-18 22:41:09 518
转载 HDFS和YARN集群新增节点
目录静态新增动态新增Hadoop HDFS 数据自动平衡脚本使用方法静态新增静态新增的方式,相当于我们最开始部署Hadoop集群规划一样,停止集群,新增一个DateNode数据节点,这种方法不适用于线上提供服务的场景。例如现在集群有:bigdata111(namenode)bigdata112(datanode)bigdata113(datanode)bigdata114(新增da...
2019-06-14 09:45:29 1000
原创 ionic4 pipe.ts is part of the declarations of 2 modules:
目录问题复现解决思路:实操:新建个module在需要的页面导入shareModule问题复现在之前的几篇ionc4自定义pipe和directive后,发现打包会包一个错误ionic4 pipe.ts is part of the declarations of 2 modules:意思就是说,不能在多个文件中声明自定义的过滤器和指令。解决思路:既然不可以这样,那我们就自己建立一个模块...
2019-06-13 08:54:25 1539
原创 多线程编程核心技术-对象及变量的并发访问-synchronize同步方法(2)
目录对象及比变量的并发访问1、synchronize同步方法1)方法内的变量为线程安全对象及比变量的并发访问1、synchronize同步方法1)方法内的变量为线程安全例子:public class HasSelfPrivateNum { public void addI(String username){ try{ int num = ...
2019-06-12 22:38:21 223
原创 MapReduce框架--InputFormat数据输入--切片优化(11)
目录MapReduce框架原理1.MapReduce工作流程2.InputFormat数据输入1)Job提交流程和切片源码详解job提交流程源码详解FileInputFormat源码解析(input.getSplits(job))2)FileInputFormat切片机制FileInputFormat中默认的切片机制:FileInputFormat切片大小的参数配置获取切片信息API3)Combi...
2019-06-11 17:25:01 393
原创 多线程编程核心技术-java多线程技能(1)
目录进程和多线程的概念以及线程的优点1.进程概念2.线程概念3.优点使用多线程1.继承Thread类进程和多线程的概念以及线程的优点1.进程概念2.线程概念3.优点使用多线程接触下线程public class Demo1 { public static void main(String[] args) { System.out.println(Thre...
2019-06-10 22:38:43 664
原创 java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray
/** * 上传 */ @Test public void putHDFS() throws IOException, URISyntaxException, InterruptedException { //创建配置信息 Configuration conf = new Configuration(); //...
2019-06-08 20:09:16 1691 1
原创 ionic4 click防抖指令
案例: 一个登陆页面,连续多次点击登陆按钮,会造成多次触发提交事件,解决方式很多,但是感觉指令方式使用起来更简单,代码更简洁。自定义click防抖指令1.ionic4 内置指令生成一个空的指令ionic g directive directives/debounce-click生成文件如下:2.书写debounce-click.directive.ts指令import {Dir...
2019-06-06 13:52:21 885
原创 ionic4 自定义pipe
例子: 有个 需要根据时间转换成周几的需求,我们可以用管道过滤自定义pipe实现1.命令ionic g pipes convertWeek生成下面的2个文件:2.书写covert-week.pipeimport {Pipe, PipeTransform} from '@angular/core';@Pipe({ name: 'convertWeek'})expor...
2019-06-06 08:52:26 1071 2
转载 rxjs6 常用操作符引用方式
这里写自定义目录标题创建 Observable 的方法、types、schedulers 和一些工具方法:import { Observable, Subject, asapScheduler, pipe, of, from, interval, merge, range, timer, empty, never, throwError, fromEvent, fromEventPa...
2019-06-06 08:24:05 880 1
原创 linux 常用命令速查速记整理
文章目录1. linux第1课1.1 linux常用命令1.1.1 一般模式1.1.2 编辑模式1.1.3 指令模式1.1.4 文件目录类1.1.5 时间日期类1.1.6 用户管理命令1.1.7 文件权限类1.1.8 磁盘分区类1.1.9 搜索查找类1.1.10进程线程类1.1.11 压缩和解压缩1.2 Linux定时任务Crontab1.3 安装linux版本JDK1.4 虚拟机快照1....
2019-06-01 23:38:46 697
sentinel-dashboard-1.7.0.zip
2020-04-13
tomcat9 tar.tz压缩包
2018-11-12
log4j-1.2.11
2014-10-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人