Hadoop 大数据--HDFS MapReduce
大数据小小罗
做一个有思想的程序设计者!
展开
-
spark集群启动命令和Web端口查看
namenode的webUI端口:50070yarn的web端口:8088spark集群的web端口:8080原创 2016-08-02 17:51:44 · 36603 阅读 · 1 评论 -
hdfs常用初始化命令解释
新的HDFS集群,还要首先执行格式化命令 hdfs namenode -format把该NameNode的数据同步到另一个没有格式化的NameNode,在未格式化过的NameNode上执行命令 hdfs namenode -bootstrapStandby初始化JournalNode中的数据 hdfs –initializeSharedEdits把NameNode的状态进行安全的切换。原创 2016-08-18 09:48:01 · 1212 阅读 · 0 评论 -
hadoop调试技巧--解除已经绑定的端口
在windows 的cmd下 解除已经绑定的端口:1 开始-运行-cmd,输入: netstat -aon|findstr “端口号” netstat -aon|findstr “9528”通过端口号,查看对应进程。 2 找到进程号对应的进程名称: tasklist|findstr “进程号” 如: tasklist|findstr “2932”。3原创 2016-04-05 10:47:40 · 558 阅读 · 0 评论 -
Map-Reduce核心之shuffle过程
重点内容!!! 需要熟记: 80%-90%会问 一个切片split对应一个mapper,mapper将数据写到环形缓冲区,这个环形缓冲区默认是100M,当它达到80%阀值,它会将数据溢写到磁盘。溢写并不是简单的溢写,而是先进行分区,然后对每个分区进行合并,最后它会将数据合并成一个大文件,相同分区号中的数据进行合并,合并完成之后每个分区里面的数据再原创 2016-04-05 15:01:02 · 540 阅读 · 0 评论 -
01_linux下伪分布式环境搭建
1.准备Linux环境1.0 设置虚拟机ip 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only(也可以选桥接模式,具体看用处) ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows –> 打开网络和共享中心 ->原创 2016-03-21 10:06:05 · 764 阅读 · 0 评论 -
sqoop数据迁移工具
sqoop:HDFS <—> 数据库 数据迁移工具(注:代码为了表达清晰做了换行,运行时请放在一行中,使用空格隔开,或者加’\’进行行连接)一.安装:安装在一台节点上1.上传sqoop2.安装和配置在profiles中添加sqoop到环境变量将数据库连接驱动拷贝到$SQOOP_HOME/lib里二.使用第一类:数据库中的数据导入到HDFS上指定列 –columns ./sqoop import原创 2016-04-30 11:51:04 · 414 阅读 · 0 评论 -
HADOOP的本地库(NATIVE LIBRARIES)介绍
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。目前在Hadoop中,本地库应用在文件的压缩上面:zlib gzip 在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库。如果转载 2016-04-15 11:48:31 · 1279 阅读 · 0 评论 -
hadoop namenode ha--手动切换
hadoop namenode ha–手动切换 在参考本手册前请确保Hadoop中HDFS组件已经成功部署并正常运行,同时系统基本环境完备,包括ssh免密码登录、/etc/hosts等。 假设目前NameNode在服务器namenode1上运行,服务器namenode2作为standbynamenode,确保namenode2上至少已经安装了namenode服务。原创 2016-04-14 20:20:16 · 7937 阅读 · 0 评论 -
zookeeper集群搭建
1.上传zk安装包2.解压3.配置(先在一台节点上配置)3.1添加一个zoo.cfg配置文件$ZOOKEEPER/confmv zoo_sample.cfg zoo.cfg3.2修改配置文件(zoo.cfg) dataDir=/itcast/zookeeper-3.4.5/data server.5=itcast05:2888:3888 server.6=itcast06:2原创 2016-04-08 16:00:43 · 399 阅读 · 0 评论 -
Partitioner编程——根据运营商分组统计用户上网流量
Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。HashPartitioner是mapreduce的默认partitioner。计算方法是 which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks,得到当前的目的reducer。(例子以jar形式运行)排序和分原创 2016-04-05 20:11:00 · 343 阅读 · 0 评论 -
Linux下搭建eclipse环境
Linux下搭建eclipse环境: 1. 将eclipse安装包使用FileZilla传至虚拟机itcast01,解压到 /usr/local 2. 在桌面上创建快捷方式,更新图标 3. 打开eclipse,新建一个maven工程 参数设置:Group Id:cn.itcast.hadoop.mr Afract Id:datacount 4. 将原创 2016-04-05 16:53:11 · 377 阅读 · 0 评论 -
MapReduce编程——倒排索引
统计单词在每个文件中出现的词频,涵盖过程分析,源码解析原创 2016-03-29 22:15:18 · 400 阅读 · 0 评论 -
hadoop的序列化机制
序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。 hadoop将Java中的序列化接口(java.io.Serializable)进行了改造,已达到高效传输的目的序列化格式特点: 1. 紧凑:高效使用存储空间。 2. 快速:读写数据的额外开销小 3. 可扩展:可透原创 2016-04-05 16:04:42 · 378 阅读 · 0 评论 -
HDFS操作——使用 FileSystem api 读写数据
在 hadoop 的 HDFS 操作中,有个非常重要的 api,是 org.apache.hadoop.fs.FileSystem, 这是我们用户代码操作 HDFS 的直接入口,该类含有操作 HDFS 的各种方法,类似于 jdbc 中 操作数据库的直接入口是 Connection 类。 那我们怎么获得一个 FileSystem 对象哪?String uri = “hdfs://192.168.原创 2016-04-05 11:27:33 · 3209 阅读 · 0 评论 -
RPC——远程过程调用协议
RPC(Remote Procedure Call)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC**跨越了传输层和应用层**。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用C/S模式。请求程序就是一个客户机,而服务原创 2016-04-05 10:59:58 · 392 阅读 · 0 评论 -
HDFS--hadoop分布式文件系统模型
HDFS的Shell命令练习查看HDFS根目录 hadoop fs -ls /在根目录创建一个目录test hadoop fs -mkdir /test 上传文件 hadoop fs -put ./test.txt /test 或 hadoop fs -copyFromLocal ./test.txt /test下载文件 hadoop fs -get /test/tes原创 2016-03-30 09:12:21 · 1642 阅读 · 0 评论 -
HDFS读文件过程分析:读取文件的Block数据
我们可以从java.io.InputStream类中看到,抽象出一个read方法,用来读取已经打开的InputStream实例中的字节,每次调用read方法,会读取一个字节数据,该方法抽象定义,如下所示: public abstract int read() throws IOException; Hadoop的DFSClient.DFSInputStream类实现了该抽象逻辑,如果我们清楚转载 2016-03-22 12:11:54 · 3403 阅读 · 0 评论 -
MapReduce编程--1.统计用户上网流量DataCount
数据原型: 行数据原型释义: 1363157993044(访问日期) 18211575961(手机号) 94-71-AC-CD-E6-18:CMCC-EASY (mac地址) 120.196.100.99 (ip地址)iface.qiyi.com (网站名称) 视频网站 (网站类型) 15 12 1527(上行流量) 2106(下行流量) 200(运行状态码)需求:将以上数据原创 2016-04-05 16:41:30 · 3620 阅读 · 0 评论