大数据
文章平均质量分 72
六尘
stay hungry,stay foolish
展开
-
大数据技术基础(笔记)
企业面临的挑战之一是:传递大数据。传递大数据受限制于IT基础设施,需要解决大数据的规模和动态性问题。与大数据有关的不同架构思想大数据技术和它的组件设计原则大数据的功能需求: 1. 采集数据 2. 组织数据 3. 集成数据 4. 分析数据 5. 按照分析结果执行操作其他需求: 1. 架构支持,强大的运算能力和速度也非常重要原创 2016-05-22 16:22:09 · 2106 阅读 · 0 评论 -
完全分布式安装hbase,使用hbase自带的zookeeper
1.我使用的是稳定版本的hbase:hbase-1.2.4-bin.tar.gz 下载地址:http://www-eu.apache.org/dist/ 里面有个stable版本的2.配置环境变量,集群上的每个节点都要配置 vim ~/.bashrcexport HBASE_HOME=/usr/local/hbase/hbase-1.2.4export PATH=$PATH:$HBASE_H原创 2016-12-28 11:32:53 · 25231 阅读 · 2 评论 -
HDFS写操作遗留问题
一. 大量小文件如何存储在HDFS上: HDFS上块的大小默认为64M,有的为128M。这里以64M为例每写入一个文件,首先由客户端创建文件请求,创建完成后,第二步就是询问NameNode要写入的这个文件所分到的这些数据块(block)在哪些DataNode上。NameNode会在命名空间中新建一个文件,并检查这个文件是否已经存在,并且检查是否有权限创建。检查通过后,第三步开始写入数据。当文件原创 2016-12-18 18:15:43 · 694 阅读 · 0 评论 -
Eclipse搭建Scala+Spark开发环境
搭建教程:http://www.linuxidc.com/Linux/2015-08/120946.htm eclipse中运行第一个scala编写的spark程序:http://blog.csdn.net/xummgg/article/details/50651867 eclipse中Scala IDE插件的下载地址:http://scala-ide.org/download/prev-sta原创 2016-12-22 16:11:47 · 4054 阅读 · 0 评论 -
centOS 登录远程服务器
一. 获得对方的授权:服务器IP地址:xxx.xxx.xxx.xxx端口号:xx用户名:mjc密码:**********二. centOS7安装完后默认自动开启ssh服务 但我们可以使用如下步骤检查ssh是否开启 1.查看22端口是否开放netstat -tnl2.查看ssh服务是否启动systemctl status sshd.service3.ssh远程登录: ssh [-l原创 2016-12-09 11:51:03 · 715 阅读 · 0 评论 -
CentOS7上安装Hadoop2.0——单机模式/伪分布式模式 暨任务二
注意:本文步骤参考给力星的http://www.powerxing.com/install-hadoop-in-centos/的内容,实验结果均是本人真实实验的图片,仅用于记录和学习之用。一. 创建hadoop用户1. 登录root用户,创建Hadoop用户$ su root2. 创建可以登陆的 hadoop 用户,并使用 /bin/bash 作为shell。# useradd -m hadoop原创 2016-12-06 16:41:36 · 2991 阅读 · 0 评论 -
CentOS安装配置JDK1.7暨任务一
1.解压jdk,新建Hadoop文件,将JDK解压后放入此文件夹中 2.进入root用户su root3.卸载自带的openJDKrpm -qa | grep javarpm -e --nodeps java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.91原创 2016-12-05 16:37:31 · 875 阅读 · 0 评论 -
centOS安装Scala和Spark
一.安装ScalaScala程序运行在java虚拟机(JVM)上,所以安装Scala之前需要先在linux系统中安装Java。由于之前已经安装了,没安装的可以到我的文章http://blog.csdn.net/xqclll/article/details/53466713去查看。到Scala的官网上去下载相应操作系统的scala版本,解压到安装路径下,然后修改文件权限,使hadoop用户拥有对sca原创 2016-12-12 22:02:29 · 2702 阅读 · 0 评论 -
Hadoop2.0集群安装配置
本集群使用centOS 7作为系统集群,基于原生Hadoop2,使用版本为Hadoop2.6.0。 一. 搭建前提:在 搭建集群之前,要保证每台虚拟机都配置好了Hadoop用户安装SSHServer(centOS 7系统安装好后就默认安装了)安装JAVA环境安装Hadoop二. 网络配置首先保证所有主机位于同一个局域网内,然后将每台虚拟机的网络都设为桥接模式,并且手工配置IP地址,保证它原创 2016-12-11 12:53:47 · 906 阅读 · 0 评论 -
大数据开发进阶笔记——HBase的常用原子操作Java代码
HBase的常用原子操作Java代码: Append:追加,类似于put操作。Configurationconf =HBaseConfiguration.create();conf.set(“hbase.zookeeper.quorum”,”192.168.1.149”);conf.set(“hbase.zookeeper.property.clientport”,”2181”原创 2016-08-15 09:43:04 · 2728 阅读 · 0 评论 -
HBase协处理器
一. 协处理器定义 HBase可以让用户的部分逻辑在数据存放端及HBase服务端进行计算的机制(框架),协处理器允许用户在hbase服务端上运行自己的代码。 二. 协处理器的分类 1.从加载角度来分类: 系统协处理器:配置好配置文件,完全导入,全局使用协处理器 表协处理器:用户可以指定某一张表使用协处理器 2.从功能角度来分类 Observer协处理器:相当于关系型数据库中的触发原创 2016-09-04 15:38:32 · 1088 阅读 · 0 评论 -
大数据实战下笔记——Hadoop NameNode HA的原理
NameNode高可用整体(HA)框架NameNode的主备切换NameNode的共享存储一.NameNode高可用整体框架组件:两个NameNode,一个在Active上,一个在Standby上。Active为Hadoop提供服务。两台NameNode互备,处于Active状态的NameNode是主,处于standby状态的NameNode是备,只有主Name原创 2016-08-21 23:00:47 · 3614 阅读 · 0 评论 -
搭建企业Hbase
**注意:本文步骤完全参考阳光奶爸的博文,有些部分根据我自己的理解进行了修改和补充。 http://blog.csdn.net/carl810224/article/details/52174412 自己搭建成功,记录下来作为作业笔记。 **一. 搭建Hbase HA之前需要搭建好Hadoop HA集群 二.企业级系统参数配置 //查看linux系统最大进程数和最大文件打开数 uli原创 2016-08-29 00:41:51 · 532 阅读 · 0 评论 -
Hadoop 2.0 HA高可用集群安装配置
**注意:本文步骤完全参考阳光奶爸的博文,有些部分根据我自己的理解进行了修改和补充。 http://blog.csdn.net/carl810224/article/details/52160418 自己搭建成功,记录下来作为作业笔记。 **一.高可用集群规划 主机名 IP地址 安装的软件原创 2016-08-29 00:10:54 · 1086 阅读 · 0 评论 -
大数据开发基础上笔记
一、HDFS简介1.Hadoop2介绍2.HDFS概述3.HDFS读写流程 1.Hadoop2的介绍(1)Hadoop2框架的核心设计:HDFS、MapReduce、YARN(使得Hadoop2可以运行更多的框架)、other(2)Hadoop1:MapReduce、HDFS(3)Hadoop2主要改进: YARN:使Hadoo原创 2016-07-31 23:02:09 · 678 阅读 · 0 评论 -
大数据开发基础下笔记
HBase原理1. 认识HBase2. Hbase架构3. HBase读写流程 1. 认识HBaseHBase是一个高可靠性、面向列、可伸缩的分布式存储系统可以随机访问,弥补了HDFS不能随机访问数据,随机读取数据的缺陷存储和检索数据的平台不介意数据类型,允许动态的,灵活的数据类型(1) HBase架构原创 2016-08-03 21:28:00 · 658 阅读 · 0 评论 -
数据库和数据仓库(笔记)
数据库管理系统: RDBMS(Relational Databases Management Systems)PosterSQL 2. 数据仓库长期存储数据整合不同来源的数据(包括元数据)多种格式存储数据有助于高速检索的形式进行存储 结构化数据的提供者帮助产生商业智慧OLAP:通过限制,切割,过滤,向上钻原创 2016-05-22 16:42:28 · 420 阅读 · 0 评论 -
scala编写的Spark程序远程提交到服务器集群上运行
一.需要的软件:eclipse相应版本的scalaIDE与集群一样的spark安装包,主要是要用到spark中的jar包与集群一样的hadoop安装包与hadoop版本对应的winutil.exe,hadoop.dll(只要版本差距不大不一样也没关系)二.步骤 (一)在eclipse中安装对应版本的ScalaIDE,具体安装见网上。(二)复制winutil.exe,hadoop.dll原创 2017-01-05 22:44:14 · 10384 阅读 · 1 评论