hadoop
文章平均质量分 73
thinkpadshi
这个作者很懒,什么都没留下…
展开
-
Linux学习笔记(一)——初级操作
最近学习hadoop,需要用到linux,之前没有接触过,因此在学习hadoop的过程中积累了一些Linux的初级知识,如下:1. 网络配置ifconfig 查看网络接口信息;ping –c 4 192.168.0.144 发送指定数量的网络测试包hostname 显示当前主机名称setup 调用设置界面service network restart 重启网络服原创 2015-05-14 14:44:43 · 1632 阅读 · 0 评论 -
hadoop权威指南(第四版)要点翻译(7)——Chapter 4. YARN(2)
3) Scheduling in YARN a) In an ideal world, the requests that a YARN application makes would be granted immediately. In the real world, however, resources are limited, and on a busy cluster, an appl翻译 2015-09-17 16:51:54 · 1296 阅读 · 0 评论 -
hadoop权威指南(第四版)要点翻译(8)——Chapter 4. YARN(3)
m) In normal operation, the Capacity Scheduler does not preempt containers by forcibly killing them,so if a queue is under capacity due to lack of demand, and then demand increases, the queue will onl翻译 2015-09-17 17:01:28 · 1907 阅读 · 0 评论 -
hadoop学习笔记(八)——hadoop整合hive
环境:centos7+hadoop2.5.2+hive1.2.11) 下载hive稳定版本apache-hive-1.2.1-bin.tar2) 在/usr/local目录下解压,与hadoop处于同一级别a) # tar -xzvf apache-hive-1.2.1-bin.tar.gz b) # mv apache-hive-1.2.1-bin hive1.2 c) # cp hiv原创 2015-09-22 10:41:00 · 2887 阅读 · 0 评论 -
hadoop学习笔记(九)——hadoop日志分析系统
环境:centos7+hadoop2.5.2+hive1.2.1+mysql5.6.22+indigo service 2思路:hive加载日志→hadoop分布式执行→需求数据进入mysql注意:hadoop日志分析系统网上资料很多,但是大多都有写小问题,无法顺利运行,但本文中都是经过亲自验证的,可以一气呵成。另外还包括可能遇到的异常的详细解释及相关解决方案。1) 日志格式分析首先分析 Hadoo原创 2015-09-23 12:24:24 · 11076 阅读 · 3 评论 -
hadoop学习笔记(十)——hadoop + hbase + zookeeper
注:hadoop2.5.2 + hbase1.1.2 + zookeeper3.4.61) hadoop安装参考之前hadoop的安装步骤。 [http://blog.csdn.net/thinkpadshi/article/details/45720405]2) zookeeper安装a) 下载最新的稳定版本zookeeper-3.4.6.tar原创 2016-01-21 20:15:48 · 972 阅读 · 0 评论 -
hadoop学习笔记(11)——hbase shell简单操作示例
1) 表设计2) 建表scores,具有两个列族:grad和course[root@master bin]# hbase shellhbase(main):002:0> create 'scores','grade','course'0 row(s) in 7.6340 seconds=> Hbase::Table - scores3) 查看Hasee中有哪些表hbase(main):003:原创 2016-01-25 13:50:31 · 1066 阅读 · 0 评论 -
CDH大数据平台实施经验总结2016
2016年负责实施了一个生产环境的大数据平台,用的CDH平台+docker容器的方式,过了快半年了,现在把总结发出来。1. 平台规划注意事项1.1 业务数据全部存储在datanode上面,所以datanode的存储空间必须足够大,且每个datanode的存储空间尽量保持一致。1.2 管理节点/namenode对存储空间要求不高,主要存储各计算节点datanode的元数据信息,以3个datanode为原创 2017-05-11 17:27:38 · 15080 阅读 · 3 评论 -
CDH5.9.0离线部署
部署环境:win7+vmware11+centos7.2+cdh5.9.01) 关闭防火墙–# firewall-cmd –state –# systemctl stop firewalld.service –# systemctl disable firewalld.service –# vi /etc/selinux/config SELINUX=disabled ,然后重启2) 虚拟机原创 2017-08-21 10:07:37 · 1201 阅读 · 0 评论 -
hadoop2.6快速离线部署
1. 关闭防火墙-# firewall-cmd --state-# systemctl stop firewalld.service-# systemctl disable firewalld.service-# vi /etc/selinux/configSELINUX=disabled ,然后重启2) 虚拟机IP配置BOOTPROTO=staticIPADDR=192.168.220.原创 2017-08-28 05:37:31 · 785 阅读 · 0 评论 -
sqoop1.4.6离线部署于hadoop2.6之上与hive导入导出数据
1) .下载最新的sqoop1.4.6安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar2) . 解压到/usr/local,跟hadoop同一级别# tar -xzvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /usr/local# mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha原创 2017-08-28 05:47:37 · 871 阅读 · 0 评论 -
hadoop权威指南(第四版)要点翻译(6)——Chapter 4. YARN(1)
Chapter 4. YARN Apache YARN (Yet Another Resource Negotiator) is Hadoop’s cluster resource management system. YARN was introduced in Hadoop 2 to improve the MapReduce implementation, but it is general翻译 2015-09-08 13:10:15 · 2505 阅读 · 0 评论 -
hadoop权威指南(第四版)要点翻译(5)——Chapter 3. The HDFS(5)
5) The Java Interface a) Reading Data from a Hadoop URL. 使用hadoop URL来读取数据 b) Although we focus mainly on the HDFS implementation, DistributedFileSystem, in general you should strive to write y翻译 2015-08-16 11:48:01 · 1577 阅读 · 0 评论 -
hadoop权威指南(第四版)要点翻译(4)——Chapter 3. The HDFS(1-4)
Filesystems that manage the storage across a network of machines are called distributed filesystems. Since they are network based, all the complications of network programming kick in, thus making dist翻译 2015-08-14 17:01:46 · 1831 阅读 · 0 评论 -
hadoop学习笔记(一)——hadoop安装及测试
这几天乘着工作之余,学习了一下hadoop技术,跌跌撞撞的几天,终于完成了一个初步的hadoop的安装及测试,具体如下:动力:工作中遇到的数据量太大,服务器已经很吃力,sql语句运行老半天,故想用大数据技术来改善一下环境:centos5.11+jdk1.7+hadoop2.5.21. 伪分布安装步骤关闭防火墙修改ip修改hostname设置ssh自动登录原创 2015-05-14 14:32:45 · 12208 阅读 · 0 评论 -
hadoop学习笔记(五)——全分布模式下SSH免密码登陆的实现
因为三个节点要相互访问,所以,三个节点都是客户端,也都是服务器端,我们分别在三个节点上创建一对密钥文件,密钥文件包括公钥文件(~/.ssh/id_rsa.pub)和私钥文件 (~/.ssh/id_rsa)。客户端在使用ssh登录到其他节点上的时候,ssh会发送私钥去和其他节点上的公钥去匹配,如果匹配成功,那么就会自动登录,而不需要输入密码,这就实现了无密码登录。 所以,客户端要实现免密码登录到目标节点上的时候,就需要把公钥写入目标节点上的~/.ssh/authorized_keys中。原创 2015-06-16 15:14:00 · 5975 阅读 · 1 评论 -
hadoop学习笔记(六)——hadoop2.5.2全分布模式实现的部署
环境:centos7 + hadoop2.5.2 + jdk1.7已经在前两篇博客中出现的步骤具体细节一笔带过,不再展示,具体可以参考ssh免密码登陆,伪分布1) SSH免密码登陆2) 主节点安装jdk和hadoop,并配置环境变量3) 配置主节点hadoop配置文件除了需要额外配置slave,其他的跟伪分布一致。yarn-site.xml配置文件需要额为一下信息原创 2015-06-19 13:15:08 · 2888 阅读 · 0 评论 -
hadoop学习笔记(三)——WIN7+eclipse+hadoop2.5.2部署
折腾了大半个晚上终于部署成功了,比在Linux上面稍微复杂一点,详细步骤如下:1) jdk、ant、hadoop环境变量配置2) 分别将hadoop-2.5.2.tar.gz、hadoop-2.5.2-src.tar.gz、hadoop2x-eclipse-plugin、hadoop-common-2.2.0-bin下载解压到D:\profession\hadoop目录下3)原创 2015-06-02 15:15:29 · 5706 阅读 · 0 评论 -
hadoop学习笔记(四)——eclipse+maven+hadoop2.5.2源码
Eclipse中用maven导入hadoop源码1) 安装并配置maven环境变量M2_HOME: D:\profession\hadoop\apache-maven-3.3.3PATH: %M2_HOME%\bin;2) 验证:mvn –version3) 下载protobuf-2.5.0.tar.gz 和 protoc-2.5.0-win32.zip4) 将原创 2015-06-06 14:46:07 · 7915 阅读 · 0 评论 -
hadoop学习笔记(二)——hadoop思想简介
这几天阅读《hadoop实战》,初步了解了一下hadoop的核心思想,简要的比较如下:1. hadoop是一个开源框架,可编写和运行分布式应用处理大数据,具有方便、简单、健壮性、可扩展性等优点2. MapReduce程序的执行分为两个阶段,为mapping和reducing。每个阶段均定义为数据处理函数,分别被称为mapper和reducer。在mapping阶段,MapReduce获原创 2015-05-25 10:48:01 · 2323 阅读 · 0 评论 -
hadoop权威指南(第四版)要点翻译(3)——Chapter 2. MapReduce
Most importantly, MapReduce programs are inherently parallel, thus putting very large-scale data analysis into the hands of anyone with enough machines at their disposal.MapReduce comes into its own fo翻译 2015-08-13 12:19:27 · 2207 阅读 · 0 评论 -
hadoop学习笔记(七)——hadoop权威指南中天气数据运行
1) hdfs文件系统准备工作 2)编写程序3)eclipse上运行4)javac方式运行5)eclipse输出jar包原创 2015-07-31 22:49:47 · 5597 阅读 · 0 评论 -
hadoop权威指南(第四版)要点翻译(2)——Chapter 1. Meet Hadoop
a) The trend is for every individual’s data footprint to grow, but perhaps more significantly,the amount of data generated by machines as a part of the Internet of Things will be even greater than tha翻译 2015-08-03 11:59:26 · 1767 阅读 · 0 评论 -
hadoop权威指南(第四版)要点翻译(1)——Foreword and Preface
前期已经完成了hadoop全分布模式的部署和运行,近期想更进一步的了解hadoop原理,基于hadoop2.X的书籍最好的莫过于《hadoop权威指南(第四版)》,很可惜作者年初才刚写完,没来得及翻译,只好看英文版了,书中的要点重点在接下来的一段时间我会依次翻译出来(全部翻译不太现实,没那么多时间精力,将近900页呢),如果有翻译不妥的地方,还请大家指出来,共同进步,谢谢!今天是个开头,就先翻翻译 2015-07-22 11:58:38 · 2104 阅读 · 0 评论 -
sqoop与hbase导入导出数据
环境:sqoop1.4.6+hadoop2.6+hbase1.1+mysql5.7 说明: 1.文中的导入导出的表结构借鉴了网上的某篇博客 2.mysql导入hbase可以直接通过sqoop进行 3.hbase导出到mysql无法直接进行,需要经过hive的中间作用来完成 hbase→hive外部表→hive内部表→sqoop导出→mysql一、Sqoop导入hbasea) Mysql创建原创 2017-08-28 05:58:10 · 9798 阅读 · 0 评论