LoneSurvivor的博客

一入通信深似海,从此红颜是路人

排序:
默认
按更新时间
按访问量

MapReduce学习笔记(8)—— 网站日志处理

1 待处理的数据 194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 &...

2018-08-10 10:30:09

阅读数:230

评论数:0

MapReduce学习笔记(7)—— 寻找共同好友

1 数据 冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)。求出哪些人两两之间有共同好友,及他俩的共同好友都有谁? A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,...

2018-08-10 10:24:05

阅读数:94

评论数:0

MapReduce学习笔记(6)——倒排索引

1 待统计的文本数据 2 源码 package InverseIndex; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop....

2018-08-09 16:58:51

阅读数:21

评论数:0

MapReduce学习笔记(5)—— Map 端 join 实现

1 订单、产品信息表

2018-08-09 15:18:39

阅读数:20

评论数:0

MapReduce学习笔记(4)—— 案例:订单、商品信息合并

1

2018-08-08 20:35:33

阅读数:9

评论数:0

MapReduce学习笔记(3)—— mapreduce程序(2)集群模式

1 集群模式 将mapreduce程序提交给yarn集群resourcemanager,分发到很多的节点上并发执行; 处理的数据和输出结果应该位于hdfs文件系统; 提交集群的实现步骤:(1)将程序打成JAR包,然后在集群的任意一个节点上用hadoop命令启动;(2)直接在linux的ecli...

2018-08-08 17:00:52

阅读数:17

评论数:0

MapReduce学习笔记(3)—— mapreduce程序本地运行模式

1 本地运行模式 mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行 而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上 实现本地运行?不要带集群的配置文件(本质是mr程序的conf中是否有mapreduce.framework.name=local...

2018-08-07 21:52:39

阅读数:27

评论数:0

MapReduce学习笔记(2)—— 流量统计(3)

1 在流量统计(1)的基础上将统计结果按照总流量倒序排序 package flowsumsort; import org.apache.hadoop.io.Writable; import org.apache.hadoop.io.WritableComparable; import j...

2018-08-07 20:52:34

阅读数:23

评论数:0

MapReduce学习笔记(2)—— 流量统计(2)

1

2018-08-07 16:50:58

阅读数:33

评论数:0

MapReduce学习笔记(2)—— 流量统计(1)

1 待统计的文本 flow.log 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 136315799...

2018-08-02 17:33:17

阅读数:13

评论数:0

MapReduce学习笔记(1)——字符统计

1 MapReduce 介绍 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 1.1 使用 Ma...

2018-07-31 10:19:43

阅读数:14

评论数:0

centos7-64bit 编译 hadoop2.7.6 源码

1 安装并配置JDK1.8环境变量 2 安装maven 解压到 usr/apps 配置环境变量 /etc/profile export MAVEN_HOME=/usr/apps/apache-maven-3.5.4 export PATH=$MAVEN_HOME/bi...

2018-07-30 10:26:40

阅读数:31

评论数:0

Hadoop学习笔记(6)—— java API 操作 hdfs(2)

1 用流的方式上传文件 package com.tzb.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FS...

2018-07-26 16:07:23

阅读数:12

评论数:0

Hadoop学习笔记(5)—— HDFS介绍

1 HDFS 概念 它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 1.1 介绍 HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode...

2018-07-24 09:27:10

阅读数:29

评论数:0

Hadoop学习笔记(4)—— java API 操作 hdfs(1)

1

2018-07-19 14:20:57

阅读数:20

评论数:0

Hadoop学习笔记(3)——win7 64位下编译 Hadoop 2.6.7源码

1 解压源码 这里解压到了H盘,并且重命名,H:\hdp 2 安装Microsoft Windows SDK 7 下载地址:

2018-07-18 20:07:30

阅读数:22

评论数:0

Hadoop学习笔记(2)—— hdfs 和mapreduce 测试

1 hdfs 体验 1.1 查询 hdfs 1.2 上传文件 http://192.168.154.131:50070/explorer.html#/ 2 mapreduce 体验 2.1 启动 yarn 新建一个 a.txt ,内容如下 ...

2018-07-17 20:49:57

阅读数:10

评论数:0

Hadoop学习笔记(1)——Hadoop 集群搭建

1 Hadoop介绍 HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 A. HDFS(分布式文件系统) B. YARN(运算资源调度系统) C. MAPREDUC...

2018-07-17 16:42:55

阅读数:21

评论数:0

jvm 技术

1 内存模型 Java虚拟机在执行Java程序的过程中,会把它所管理的内存划分为若干个不同的数据区。这些区域有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,有的区域则依赖用户线程的启动和结束而建立和销毁,我们可以将这些区域统称为Java运行时数据区域。 Java虚拟机运...

2018-07-15 12:13:12

阅读数:14

评论数:0

Java NIO

1 RPC介绍 RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨...

2018-07-14 21:39:21

阅读数:12

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭