hadoop
阿凡T
这个作者很懒,什么都没留下…
展开
-
hadoop学习笔记
1.Hadoop提供了一个稳定的共享存储和分析系统。存储由HDFS实现,分析由MapReduce实现,这两个就是Hadoop的核心所在 2.为什么我们不能使用数据库加上更多磁盘来做大规模的批量分析?为什么我们需要MapReduce? 1.寻址时间的提高速度远远慢于传输速率的提高速度,寻址就是将磁头移动到特定位置进行读写操作的工序,它的特点是磁盘操作有延迟,而传输速率对应于磁盘的带宽原创 2017-06-05 17:31:17 · 273 阅读 · 0 评论 -
hadoop学习4
利用mapreduce进行排序import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;impo原创 2017-09-11 19:40:23 · 182 阅读 · 0 评论 -
hadoop学习3
1.文件按照行来去重import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org原创 2017-09-11 19:14:04 · 182 阅读 · 0 评论 -
hadoop学习3
1.优化hadoop执行的性能问题 1.输入的文件尽量采用大文件,避免使用小文件,也就是要对大量的小文件进行预处理,使得其编程小量的大文件 2.可以借用hadoop中的CombineFileInputFormat,将多个文件打包到一个输入单元中,从而使得每次的map操作处理更多的数据 3.考虑压缩文件:对map的输出进行压缩,可以减少存储文件的空间,加快数据在网络上的传输速度,原创 2017-09-10 20:46:12 · 185 阅读 · 0 评论 -
hadoop学习2
1.利用java.net.URL来访问hdfs文件package com.afan;import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandl原创 2017-09-10 13:55:41 · 208 阅读 · 0 评论 -
hadoop项目1
1.mapper类package com.afan;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred原创 2017-09-09 20:04:56 · 231 阅读 · 0 评论 -
打印hadoop的配置文件的信息
public class ConfigurationPrinter extends Configured implements Tool{ static{ Configuration.addDefaultResource("hdfs-default.xml"); Configuration.addDefaultResource("hdfs-site.xml");原创 2017-09-17 13:21:59 · 437 阅读 · 0 评论 -
hadoop学习7
将本地文件上传为hdfs文件 String localSrc = ""; String dst = ""; InputStream in = new BufferedInputStream(new FileInputStream(new File(localSrc))); Configuration conf = new Configuration()原创 2017-09-13 21:20:33 · 154 阅读 · 0 评论 -
HADOOP学习6
java简单的访问HDFS文件InputStream in = null; try{ byte[] bytes = new byte[1024]; in = new URL("这里写hdfs文件的路径").openStream(); while(in.read(bytes) > 0){原创 2017-09-13 20:32:36 · 253 阅读 · 0 评论 -
Ubuntu 系统linux常见的命令
1.安装ssh命令 sudo apt-get install openssh-server 2.查看ssh服务是否已经启动命令 sudo ps -e|grep ssh 3.启动ssh服务的命令 sudo service ssh start 4.安装iftables的命令 sudo apt install net-tools 5.在线安装jdk 1)安装Python原创 2017-08-20 15:05:17 · 288 阅读 · 0 评论 -
hadoop的使用场合与不使用场合
1.在web中页面的快速响应中不适合用hadoop(响应时间在ms级别)2.大量的小文件处理不使用用hadoop(元数据较多,而且元数据是存储在namenode中的,内存占用大)3.HDFS中的block:一个block只是可以存储一个文件;但是一个文件可以由多个块组成,默认情况下一个block有2个副本(为了安全,可以手动配置),hadoop中默认的block大小是64MB4.各个节点的功能原创 2017-08-20 14:24:39 · 406 阅读 · 0 评论 -
hadoop体系结构
1.hadoop的两大核心:hdfs 和mapReduce hdfs:实现对分布式存储的底层支持 mapReduce:实现对分布式并行任务的程序支持 2.hdfs的体系结构 一个hdfs集群是由一个namenode 和若干个datanode组成的 namenode:作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作 datanode原创 2017-08-19 16:20:25 · 1177 阅读 · 0 评论 -
hadoop学习5
利用SequenceFile对文件进行读写 1.文件的写操作import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;im原创 2017-09-12 20:38:48 · 199 阅读 · 0 评论