大数据
文章平均质量分 53
开开_王子
逆风的方向更适合飞翔,我不怕万人阻挡,只怕自己投降。
展开
-
Linux虚拟机(ubuntu16)网络设置方法
第一种方法:desktop设置方法:(设置为Nat模式) 注意: ubuntu默认的网卡不是eth0,而是ens33 1)打开网络连接设置,选择edit connection… (桌面右上角) 2)修改配置edit 3)设置ipv4,ip/网关/子网掩码 method:Mannual ->Add IP adresss:192.168.222.100 ->子网掩码:255.255.255.原创 2017-09-17 20:31:20 · 2175 阅读 · 0 评论 -
HDFS中读写文件流程
1、HDFS中读取文件流程2、HDFS中写入文件流程原创 2017-06-24 18:16:04 · 322 阅读 · 0 评论 -
HDFS:基本概念
1、简介 HDFS(Hadoop Distributed File System )是Hadoop分布式文件系统。HDFS设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用。2、基本概念 块-block:HDFS的文件被分成多个块进行存储,HDFS块的默认大小是64MB,块是文件存储管理的逻辑单元。每一个block会在多个datanode上存储多份原创 2017-06-23 00:26:40 · 936 阅读 · 0 评论 -
Hadoop2.x环境搭建1
集群搭建(1) 虚拟机->设置->硬件->网络适配器->移除,之后再添加一个网络适配器(2) master, slave1,slave2->给slave1和slave2分别设置ip 为 192.168.222.101, 192.168.222.102 /etc/network/interfaces /etc/init.d/networking restart (3) ifconfig原创 2017-09-17 21:26:51 · 247 阅读 · 0 评论 -
HDFS基本操作
一、HDFS的相关命令 -mkdir #在HDFS创建目录 hdfs dfs -mkdir /data -ls #查看当前目录 hdfs dfs -ls / -ls -R #查看目录与子目录 -put #上传一个文件 hdfs原创 2017-10-15 15:54:15 · 604 阅读 · 0 评论 -
Spark实现WordCount单词计数
spark连接到master:bin/spark-shell –master spark://master:7077连接成功。scala>sc.textFile(“hdfs://master:9000/root/data/input/data.txt”).flatMap(.split(” “)).map((,1)).reduceByKey(+).collect刷新 http://192.168.22原创 2017-10-22 16:02:02 · 1963 阅读 · 0 评论 -
Spark基础
1、什么是Spark? Spark是一个针对大规模数据处理的快速通用引擎。 类似MapReduce,都进行数据的处理2、Spark的特点: (1)基于Scala语言、Spark基于内存的计算 (2)快:基于内存 (3)易用:支持Scala、Java、Python (4)通用:Spark Core(原创 2017-10-16 13:37:56 · 418 阅读 · 0 评论 -
Spark伪分布式环境搭建
1、解压:tar -zxvf spark-2.1.0-bin-hadoop2.4.tgz -C ~/training/ conf/目录下: cp spark-env.sh.template spark-env.sh #重命名 cp slaves.template slaves #重命名2、配置参数文件: (1) conf/spar原创 2017-10-16 13:51:55 · 321 阅读 · 0 评论 -
Hadoop2.x环境搭建2
安装jdk(1) 上传jdk至linux(2) 解压jdk //创建文件夹 mkdir /usr/java //解压 tar zxvf jdk-8u11-linux-i586.tar.gz -C /usr/java/(3) 将java添加到环境变量中 vim ~/.bashrc 在文件最后加上: export JAVA_HOME=/usr/java/jdk1.8.0_11 expo原创 2017-10-04 18:39:55 · 210 阅读 · 0 评论 -
Hadoop2.x环境搭建3
安装hadoop: hadoop-2.7.3.tar.gz1、解压hadoop mkdir /usr/hadoop tar zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop/2、修改配置文件 #hadoop2.x的配置文件在/usr/hadoop/etc/hadoop目录下,1.x的配置文件在conf文件夹 cd hadoop-2.7.3 mkdir tmp原创 2017-10-06 14:49:35 · 536 阅读 · 0 评论 -
大数据学习框架及指南
Hadoop生态圈 一 ,采集,数据从哪里来?主要包括flume等;一 ,存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;二,计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、storm等;三,查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,...原创 2018-07-28 14:40:40 · 5308 阅读 · 2 评论