大数据_程序小小望的博客-CSDN博客

大数据

关注

文章平均质量分 57

关注数：文章数：6 文章阅读量：28243 文章收藏量：6

作者: 程序小小望

寸寸微云，丝丝残照，有无明灭难消。正断魂魂断，闪闪摇摇。望望山山水水，人去去，隐隐迢迢。从今后，酸酸楚楚，只似今宵。青遥。问天不应，看小小双卿，袅袅无聊。更见谁谁见，谁痛花娇？谁望欢欢喜喜，偷素粉，写写描描？谁还管，生生世世，夜夜朝朝。

展开

flume采集数据到hdfs

说明：flume1.5，hadoop2.2 1、配置JAVA_HOME和HADOOP_HOME 说明：HADOOP_HOME用于获取flume操作hdfs所需的jar和配置文件，如果不配置，也可以手动拷贝jar包和配置文件 2、解压flume，执行bin目录下的flume-ngflume-ng agent -f /master/env/fc/a4.conf -n a4 -c /master/e

原创 2015-03-03 23:39:33 · 18263 阅读 · 0 评论
VMware批量启动关闭虚拟机

说明： 1、vmrun -T ws start “/opt/VMware/win2k8r2.vmx” nogui启动无图形界面虚拟机（-T 是区分宿主机的类型，ws|server|server1|fusion|esx|vc|player，可能比较常用的是ws、esx和player，不过我没有加-T在Workstation也能正常运行, 可能esx和server就需要了） 2、vmrun st

原创 2015-03-08 22:18:26 · 3173 阅读 · 21 评论
hadoop集群启动和关闭shell脚本

说明： 1、先启动zookeeper，再启动hdfs，再启动yarn。 2、user为hadoop使用的linux用户。 3、采用SSH登陆到其他机器执行脚本的方式，且配置了ssh免密钥登陆。start-hadoop.shuser=hadoopecho start zookeeper...for zk in master05 master06 master07dossh $user@$

原创 2015-03-08 20:27:53 · 3418 阅读 · 0 评论
大数据学习笔记1--hadoop简介和入门

Hadoop简介:分布式、可扩展、可靠的、分布式计算框架。组件：common：公共组件hdfs：分布式文件系统yarn：运行环境mapreduce：mr计算模型生态系统：Ambari:操作界面avro：通用的序列化机制、与语言无关cassandra:数据库chukwa：数据收集系统hbase:分布式大表数据库hive：基于sql的分析系统matout：机器学习算法库pi

原创 2015-04-05 11:54:58 · 1430 阅读 · 0 评论
大数据学习笔记3--HDFS扩展和mapreduce工作过程

HDFS配置：客户端中的配置参数可以覆盖服务端的参数。例如：副本数，切块大小HDFS文件存储：服务端存储block的实际大小，但是不适合存储小文件，小文件会占用namenode的元数据空间。对于小文件数据的优化，可以在上传之前先合并再上传。例如：压缩、文本文件合并HDFS扩展：hdfs支持rest API，与平台无关jetty 容器hdfs支持rest command分布式任务

原创 2015-04-11 20:52:42 · 1111 阅读 · 0 评论
大数据学习笔记2--hdfs工作原理及源码分析

windows下配置hadoophadoop 安装包解压，路径不要有特殊字符lib和bin直接解压出来的不可用，需要自己重新编译配置环境变量：HADOOP_HOME,path中添加：bin目录namenode整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。响应客户端的请求，上传文件：client申请上传文件，n

原创 2015-04-06 22:13:05 · 851 阅读 · 0 评论

大数据

作者: 程序小小望

flume采集数据到hdfs

VMware批量启动关闭虚拟机

hadoop集群启动和关闭shell脚本

大数据学习笔记1--hadoop简介和入门

大数据学习笔记3--HDFS扩展和mapreduce工作过程

大数据学习笔记2--hdfs工作原理及源码分析