单词文件word.txt,单词以tab分隔
java python hadoop scala
mysql hdfs hdfs mapreduce
yarn hadoop hadoop scala
hive hive sqoop hbase
kafka hadoop hbase hadoop
hive flume redis redis
java python scala sqoop
spark spark scala zookeeper
flume hadoop hdfs hive
# 上传word.txt文件
cd /opt/test_data
rz
# 查看文件内容
cat word.txt
# 启动HDFS
cd /opt/apache_hadoop/hadoop-2.7.3
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
# 查看进程
jps
# 上传文件到HDFS
cd /opt/apache_hadoop/hadoop-2.7.3
# 执行上传 bin/hdfs dfs -put 本地路径 hdfs路径
bin/hdfs dfs -put /opt/test_data/word.txt /word/
# 查看文件内容
bin/hdfs dfs -text /word/word.txt
启动spark-shell
# 启动spark
cd /opt/apache_hadoop/spark-2.2.1
bin/spark-shell
# 启动成功后,在 scala> 窗口下编写代码
1. 读取数据形成RDD(弹性分布式数据集)
读取本地路径文件方式: file//+本地路径
val path = "file///opt/test_data/word.txt"
读取HDFS上的文件: /+文件路径
val path = "/word/word.txt"
输出