大数据
文章平均质量分 57
程序小小望
寸寸微云,丝丝残照,有无明灭难消。正断魂魂断,闪闪摇摇。望望山山水水,人去去,隐隐迢迢。从今后,酸酸楚楚,只似今宵。
青遥。问天不应,看小小双卿,袅袅无聊。更见谁谁见,谁痛花娇?谁望欢欢喜喜,偷素粉,写写描描?谁还管,生生世世,夜夜朝朝。
展开
-
flume采集数据到hdfs
说明:flume1.5,hadoop2.2 1、配置JAVA_HOME和HADOOP_HOME 说明:HADOOP_HOME用于获取flume操作hdfs所需的jar和配置文件,如果不配置,也可以手动拷贝jar包和配置文件 2、解压flume,执行bin目录下的flume-ngflume-ng agent -f /master/env/fc/a4.conf -n a4 -c /master/e原创 2015-03-03 23:39:33 · 18263 阅读 · 0 评论 -
VMware批量启动关闭虚拟机
说明: 1、vmrun -T ws start “/opt/VMware/win2k8r2.vmx” nogui启动无图形界面虚拟机 (-T 是区分宿主机的类型,ws|server|server1|fusion|esx|vc|player,可能比较常用的是ws、esx和player,不过我没有加-T在Workstation也能正常运行, 可能esx和server就需要了) 2、vmrun st原创 2015-03-08 22:18:26 · 3173 阅读 · 21 评论 -
hadoop集群启动和关闭shell脚本
说明: 1、先启动zookeeper,再启动hdfs,再启动yarn。 2、user为hadoop使用的linux用户。 3、采用SSH登陆到其他机器执行脚本的方式,且配置了ssh免密钥登陆。start-hadoop.shuser=hadoopecho start zookeeper...for zk in master05 master06 master07dossh $user@$原创 2015-03-08 20:27:53 · 3418 阅读 · 0 评论 -
大数据学习笔记1--hadoop简介和入门
Hadoop简介:分布式、可扩展、可靠的、分布式计算框架。组件:common:公共组件hdfs:分布式文件系统yarn:运行环境mapreduce:mr计算模型生态系统:Ambari:操作界面avro:通用的序列化机制、与语言无关cassandra:数据库chukwa:数据收集系统hbase:分布式大表数据库hive:基于sql的分析系统matout:机器学习算法库pi原创 2015-04-05 11:54:58 · 1430 阅读 · 0 评论 -
大数据学习笔记3--HDFS扩展和mapreduce工作过程
HDFS配置:客户端中的配置参数可以覆盖服务端的参数。例如:副本数,切块大小HDFS文件存储:服务端存储block的实际大小,但是不适合存储小文件,小文件会占用namenode的元数据空间。对于小文件数据的优化,可以在上传之前先合并再上传。例如:压缩、文本文件合并HDFS扩展:hdfs支持rest API,与平台无关jetty 容器hdfs支持rest command分布式任务原创 2015-04-11 20:52:42 · 1111 阅读 · 0 评论 -
大数据学习笔记2--hdfs工作原理及源码分析
windows下配置hadoophadoop 安装包解压,路径不要有特殊字符lib和bin直接解压出来的不可用,需要自己重新编译配置环境变量:HADOOP_HOME,path中添加:bin目录namenode整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。响应客户端的请求,上传文件:client申请上传文件,n原创 2015-04-06 22:13:05 · 851 阅读 · 0 评论