关闭

作业7.17

标签: 大数据hadoop
193人阅读 评论(1) 收藏 举报

1.结构化与非结构化区别

结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

非结构化数据:包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等。

2.大数据是什么,有什么特点?

大数据指一般的软件工具难以捕捉、管理和分析的大容量数据。

大数据有4V特征:Volume(大量)、Velocity(实时)、Variety(多样)、Value(价值)。

大数据(big data),或称海量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

3.数据仓库

数据仓库英文名称为Data Warehouse,可简写为DW或DWH,是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

4.cap理论

CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility) 和分区容忍性(Partition Tolerance)这三个需求。最多只能同时满足其中的两个。

安装hadoop

环境:VM10+ubuntu64作为实验环境

为操作系统添加hadoop用户并设置密码
之后对Hadoop的操作均由hadoop用户完成

创建hadoop用户
执行命令 # adduser  hadoop
    #  adduser  hadoop --add_extra_groups sudo

后续步骤安装软件目录 /home/hadoop/安装包

连接新建的 hadoop 用户
确认 sudo su 命令可用

1.安装JDK
我们可以使用两种方法安装JDK,一种是在线安装。另一种是先下载JDK安装包然后再离线安装。

离线安装:
把离线包拷入到ubuntu的当前用户hadoop的software文件夹下,然后执行命令安装。

$mkdir   ~/software
$tar  -zxvf   jdk-7u80-linux-x64.tar.gz   
$mv  jdk1.7.0_80/  ../jdk1.7

安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。

执行命令
# sudo   gedit  /etc/profile.d/java.sh

打开/etc/profile文件在文件中添加如下配置
export   JAVA_HOME=/home/ hadoop/ jdk1.7
export   CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export   PATH=$JAVA_HOME/bin:$PATH
使profile文件修改配置生效
执行命令
$ source /etc/profile   
$ java -version    

2.安装hadoop

拷贝到hadoop用户目录中,执行命令进行安装 
执行命令
tar   xvf   hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 ~

修改hadoop环境变量配置

执行命令  
$sudo   gedit   /etc/profile.d/hadoop.sh
export HADOOP_HOME=/home/hadoop/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

注意写配置值时,不要换行

使hadoop命令配置生效

执行命令
source  /etc/profile 

或注销再登录当前用户

启动Hadoop

进入到 /home/hadoop/hadoop-2.6.0/etc/hadoop目录
执行命令
$ cd hadoop-2.6.0/etc/hadoop/
$ ls

编辑hadoop-env.sh文件,修改参数信息

执行命令$cd  hadoop-2.6.0/ etc/hadoop$sudo gedit hadoop-env.sh 
export JAVA_HOME=/home/hadoop/jdk1.7

使hadoop命令配置生效

执行命令
source  /etc/profile 

测试Hadoop环境可用性

执行命令
$ hadoop
0
0
查看评论

7.17

waiting for edit
  • jjzjx
  • jjzjx
  • 2016-07-17 08:34
  • 132

【读书笔记:C++ primer plus 第六版 中文版】第7章 函数---C++的编程模块

转载请注明出处: 本章内容包括: 函数基本知识 函数原型 按值传递函数参数 设计处理数组的函数 使用const指针参数 设计处理文本字符串的函数 设计处理结构的函数 设计处理string对象的函数 ​调用自身的函数(递归) 指向函数的指针 7.1 复习函数的基本知识 要使用C++函数,必须完成如下工...
  • enyusmile
  • enyusmile
  • 2015-06-23 11:42
  • 1093

7.17总结

上午:          看了会oracle,现在可以连接到数据库了,之前的原因是虚拟机的防火墙没关…… 下午:          继...
  • luoyemenghen
  • luoyemenghen
  • 2012-07-17 19:45
  • 179

7.17蓝桥杯

问题 1084: 用筛法求之N内的素数。
  • as472780551
  • as472780551
  • 2017-07-17 20:39
  • 50

7.17 account

china constructive 4367 4218 2272 0002 523这是昨晚和父母的长谈获得创业基金! 5000 gh 9558 8214 0200 0219546哎,我一定要珍惜这个钱 让其发挥应有的价值。the five acoount is 4367 4218 2272 000...
  • wsm2401009
  • wsm2401009
  • 2005-07-17 08:06
  • 814

幸福(7.17)

  • tianya0609
  • tianya0609
  • 2009-08-21 08:41
  • 309

java语言中级7.17

面向对象 继承 好处: 1.提高了代码的复用性 2.让类与类之间产生了关系,有了这个关系,才有了多态特性。 特点:子类拥有父类的所有属性和方法。 注意事项: 1.千万不要因为获取其他的功能,简化代码而继承。 2.必须是类与类之间有所属关系才可以继承。 3.super关键字 t...
  • tianshi0356
  • tianshi0356
  • 2017-07-17 19:54
  • 120

7.17 matlab学习

第一章MATLAB环境.................................. 1 用户界面概述...................................................................................................
  • as472780551
  • as472780551
  • 2017-08-12 14:37
  • 66

NOIP2017模拟(7.17)

T1:1807 题目描述 给出一个由数字(‘0’-‘9’)构成的字符串。我们说一个子序列是好的,如果他的每一位都是 1、8、0、7 ,并且这四个数字按照这种顺序出现,且每个数字都出现至少一次(111888888880000007 是好的,而 1...
  • PXZYtax
  • PXZYtax
  • 2017-07-23 14:20
  • 82

jQuery随笔7.17

jQuery基本选择器 1:first              返回值:jQuery              获取匹配的第一个元素  jQ...
  • JJ13981853504
  • JJ13981853504
  • 2017-07-17 20:38
  • 120
    个人资料
    • 访问:294次
    • 积分:23
    • 等级:
    • 排名:千里之外
    • 原创:2篇
    • 转载:0篇
    • 译文:0篇
    • 评论:1条
    文章存档
    阅读排行
    最新评论