Linux
Cheengvho
这个作者很懒,什么都没留下…
展开
-
提交Spark程序到YARN集群上面运行
在YARN群集上运行示例wordcount.py程序以计算知识数据集中单词的频率:$ spark-submit --master yarn-client wordcount.py /loudacre/kb/*原创 2018-08-20 10:40:31 · 1388 阅读 · 0 评论 -
一些基础的HDFS命令
查询HDFS中的文件或文件夹:$ hdfs dfs -ls /XXfolder/Xfolder创建查看文件内容,以test.log文件为例:$ hdfs dfs -cat /test/test.log或(直接查看test下面所有文件的内容,*为通配符,根据自己需要自行编写过滤条件)$ hdfs dfs -cat /test/*同时查看几个选定的文件:$ hdfs df...原创 2018-08-20 10:37:29 · 326 阅读 · 0 评论 -
Flume从脱机目录(Spooldir)获取文件到HDFS
Source为本地的 /flume/weblogs_spooldir,里面存储有大量的log文件。Channel为memory。Sink为HDFS,设置为文件大小滚动。 配置文件(configuration):agent.sources = source_spoolagent.sinks = sink_hdfsagent.channels = channel_memory...原创 2018-08-10 14:25:47 · 782 阅读 · 0 评论 -
使用Spark-Core导入txt文件并格式化输出
目标文件loudacre.txt (文件存于我的Linux训练机上面的 /home/training/Documents/loudacre.txt ) 文件的每行用一个 TAB 分割 代码://导入文件var trainingrecord = sc.textFile("file:///home/training/Documents/TrainingRecord.txt")//使用...原创 2018-08-06 09:35:58 · 1282 阅读 · 0 评论 -
Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。(以Kafka在两个文件中分别作为Source和Sink)
kafka-in.conf文件(在/etc/flume-ng/conf文件夹下)#文件从本地路径到kafka配置文件##-----------------------------## 指定Agent的组件名称agent1.sources = file_sourceagent1.sinks = kafka_sinkagent1.channels = mem_channel#---...原创 2018-07-20 09:57:47 · 1570 阅读 · 1 评论 -
Linux环境下编写Spark应用程序对HDFS中的包含jpg请求的日志文件进行计数 (Scala)
目录结构 /home/training/training_materials/dev1/exercises/spark-application/countjpgs/src/main/scala/stubs/CountJPGs.scala编辑这个文件,代码如下:package stubsimport org.apache.spark.SparkContextimport org.ap...原创 2018-07-23 14:00:35 · 289 阅读 · 0 评论 -
Spark RDD按行中邮编分类输出包含该邮编的用户姓名(Scala)
原始数据:输出样式: 现在开始进入正题:此次操作均在Linux虚拟机上面进行,用spark-shell启动,不包含前面的SparkContext的设置1、 从HDFS中导入文件var accounts_path = "/loudacre/accounts"var accounts = sc.textFile(accounts_path)2、将数据转化为key-val...原创 2018-07-23 11:00:13 · 240 阅读 · 0 评论 -
CentOS 7命令
Centos查看端口占用情况命令,比如查看80端口占用情况使用如下命令:lsof -i tcp:80列出所有端口netstat -ntlp查看端口状态 /etc/init.d/iptables status检查端口被哪个进程占用(此处用查询8080端口举例)netstat -lnp|grep 8080查看进程的详细信息(1777为上面查询出来的进城编号)ps 1777杀掉进程,重新启动apache...转载 2018-05-17 20:34:38 · 132 阅读 · 0 评论 -
Hive(Impala)命令
新建表并从HDFS中导入数据:CREATE EXTERNAL TABLE webpage(page_id SMALLINT,name STRING,assoc_files STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'LOCATION '/loudacre/webpage' 在Impala或者Hive中使用之前生成的、...原创 2018-08-20 11:44:42 · 449 阅读 · 0 评论