大数据系列
文章平均质量分 79
你所有承诺
这个作者很懒,什么都没留下…
展开
-
大数据学习篇:hadoop深入浅出系列之HDFS(四)——shell操作
上一篇我们讲了HDFS的读文件和写文件,今天我们来讲HDFS的shell操作。首先,我们进入到hadoop文件夹下,然后输入bin/hdfs命令,我们能发现有很多提示信息,Usage: hdfs [--config confdir] COMMAND where COMMAND is one of 这句话的大致意思就是说hdfs后面要跟命令,我们之前格式化namenode执行的命原创 2015-09-25 23:33:48 · 1185 阅读 · 3 评论 -
zookeeper安装
安装zk之前需要安装jdk(这篇文章有免密码和jdk的安装)1:下载 https://zookeeper.apache.org/2:解压 tar zxvf zookeeper-3.4.7.tar.gz -C /data/opensoftware3:重命名 mv zookeeper-3.4.7 zookeeper4:使用别名 ln -s /data/opens原创 2016-10-26 14:13:28 · 626 阅读 · 0 评论 -
CDH5.4安装
一:清单列表centos6.5,64位虚拟机,4G内存,40G存储空间(后续会出篇文章)cm5.4包cdh5.4包二:安装准备1)让系统能够联网http://blog.csdn.net/stronglyh/article/details/47905437,这篇文章中有联网设置2)关闭防火墙,以及防火墙自启动service iptables s原创 2015-12-30 07:16:33 · 770 阅读 · 0 评论 -
大数据学习篇:hadoop深入浅出系列之HDFS(一)——HDFS简介和优缺点
上一篇,我们说了hadoop的伪分布式安装,今天我们来说说著名的HDFSHDFS,顾名思义 Hadoop Distributed File System,至于它的来历我就不说了,网上比比皆是。随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。原创 2015-09-20 23:24:49 · 5353 阅读 · 1 评论 -
大数据学习篇:hadoop深入浅出系列之HDFS(三) ——HDFS读文件和写文件
上一篇讲了HDFS的体系结构,今天这篇,我们来讲讲HDFS的读和写。一:读文件1.首先调用FileSystem对象的open方法,其实是一个DistributedFileSystem的实例2.DistributedFileSystem通过rpc获得文件的第一批个block的locations,同一block按照重复数会返回多个locations,这些locations按照hadoo原创 2015-09-23 00:03:43 · 1456 阅读 · 1 评论 -
大数据学习篇:hadoop深入浅出系列之HDFS(二)——HDFS体系结构
上一篇文章,我们说了HDFS的简介和优缺点,这篇文章我们来探讨下HDFS的体系结构先上一张美图供大家欣赏。通过这张图,我们可以清晰的看到HDFS的体系结构,client,NameNode,DataNode等,进入到hdf文件下也可以看到几个对应的文件夹(如下图)这个路径是可变的,具体查看配置文件hdfs-site.xml中dfs.namenode.name.dir和dfs.原创 2015-09-22 01:11:23 · 1599 阅读 · 0 评论 -
大数据学习篇:hadoop深入浅出系列之hadoop伪分布式安装
终于有点时间了,来写写大数据相关内容吧,大数据发展有点快,衍生出了太多的技术。先从基础的hadoop说起吧,hadoop是何物就不多说了,今天我们来说安装。环境win7,虚拟机客户端VMware Workstation,在客户端上安装linux系统,我们选的是centos(至于安装此处就不讲了)一:设置网络1:网络设置我选择的是桥接模式(至于各种模式什么作用,在此处不做原创 2015-08-23 22:58:58 · 1554 阅读 · 0 评论 -
大数据学习篇:hadoop深入浅出系列之HDFS(八) ——RPC通信
RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户原创 2015-10-08 08:09:12 · 631 阅读 · 1 评论 -
大数据学习篇:hadoop深入浅出系列之HDFS(七) ——小文件解决方案
小文件指的是那些size比HDFS的block size(默认128M)小的多的文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150 bytes的内存空间。所以,如果有10million个文件,每一个文件对应一个block,那么就将要消耗namenode 3G的内存来保存这些block的信息。如果规模再大原创 2015-09-30 14:24:15 · 1169 阅读 · 1 评论 -
大数据学习篇:hadoop深入浅出系列之HDFS(六) ——JavaAPI操作
前面我们讲了hadoop的httpFS访问,今天讲hadoop的第三种访问方式:JavaAPI原创 2015-09-28 22:33:38 · 1136 阅读 · 0 评论 -
大数据学习篇:hadoop深入浅出系列之HDFS(五) ——httpFS访问
前面我们讲了HDFS的shell操作,今天讲的是HDFS的httpFS访问,由于还没有研究透彻,先立个文章放这,以后编辑文件httpfs-env.sh执行sbin/httpfs.sh执行命令curl -i "http://192.168.1.213:14000/webhdfs/v1?user.name=root&op=LISTSTATUS"更多命令参考http://hado原创 2015-09-26 12:13:00 · 1983 阅读 · 0 评论 -
scala第一讲:hello world
scala1)结合面向对象和函数式编程2)运行在jvm上,兼容java程序原创 2017-12-06 23:39:47 · 258 阅读 · 0 评论