关闭

作业7.17

标签: 大数据hadoop
132人阅读 评论(1) 收藏 举报

1.结构化与非结构化区别

结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

非结构化数据:包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等。

2.大数据是什么,有什么特点?

大数据指一般的软件工具难以捕捉、管理和分析的大容量数据。

大数据有4V特征:Volume(大量)、Velocity(实时)、Variety(多样)、Value(价值)。

大数据(big data),或称海量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

3.数据仓库

数据仓库英文名称为Data Warehouse,可简写为DW或DWH,是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

4.cap理论

CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility) 和分区容忍性(Partition Tolerance)这三个需求。最多只能同时满足其中的两个。

安装hadoop

环境:VM10+ubuntu64作为实验环境

为操作系统添加hadoop用户并设置密码
之后对Hadoop的操作均由hadoop用户完成

创建hadoop用户
执行命令 # adduser  hadoop
    #  adduser  hadoop --add_extra_groups sudo

后续步骤安装软件目录 /home/hadoop/安装包

连接新建的 hadoop 用户
确认 sudo su 命令可用

1.安装JDK
我们可以使用两种方法安装JDK,一种是在线安装。另一种是先下载JDK安装包然后再离线安装。

离线安装:
把离线包拷入到ubuntu的当前用户hadoop的software文件夹下,然后执行命令安装。

$mkdir   ~/software
$tar  -zxvf   jdk-7u80-linux-x64.tar.gz   
$mv  jdk1.7.0_80/  ../jdk1.7

安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。

执行命令
# sudo   gedit  /etc/profile.d/java.sh

打开/etc/profile文件在文件中添加如下配置
export   JAVA_HOME=/home/ hadoop/ jdk1.7
export   CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export   PATH=$JAVA_HOME/bin:$PATH
使profile文件修改配置生效
执行命令
$ source /etc/profile   
$ java -version    

2.安装hadoop

拷贝到hadoop用户目录中,执行命令进行安装 
执行命令
tar   xvf   hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 ~

修改hadoop环境变量配置

执行命令  
$sudo   gedit   /etc/profile.d/hadoop.sh
export HADOOP_HOME=/home/hadoop/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

注意写配置值时,不要换行

使hadoop命令配置生效

执行命令
source  /etc/profile 

或注销再登录当前用户

启动Hadoop

进入到 /home/hadoop/hadoop-2.6.0/etc/hadoop目录
执行命令
$ cd hadoop-2.6.0/etc/hadoop/
$ ls

编辑hadoop-env.sh文件,修改参数信息

执行命令$cd  hadoop-2.6.0/ etc/hadoop$sudo gedit hadoop-env.sh 
export JAVA_HOME=/home/hadoop/jdk1.7

使hadoop命令配置生效

执行命令
source  /etc/profile 

测试Hadoop环境可用性

执行命令
$ hadoop
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:167次
    • 积分:22
    • 等级:
    • 排名:千里之外
    • 原创:2篇
    • 转载:0篇
    • 译文:0篇
    • 评论:1条
    文章存档
    阅读排行
    评论排行
    最新评论