HDFS
文章平均质量分 52
Cheengvho
这个作者很懒,什么都没留下…
展开
-
Linux环境下编写Spark应用程序对HDFS中的包含jpg请求的日志文件进行计数 (Scala)
目录结构 /home/training/training_materials/dev1/exercises/spark-application/countjpgs/src/main/scala/stubs/CountJPGs.scala编辑这个文件,代码如下:package stubsimport org.apache.spark.SparkContextimport org.ap...原创 2018-07-23 14:00:35 · 277 阅读 · 0 评论 -
一个Spark maven项目打包并使用spark-submit运行
项目目录名 countjpgs pom.xml文件(位于项目目录下) countjpgs => src => main => scala => stubs => CountJPGs.scala weblogs文件存放在HDFS的/loudacre目录下,是一个包含各种请求的web日志文件。pom.xml文件内容:<project xmlns="...原创 2018-08-23 17:20:05 · 8277 阅读 · 0 评论 -
Hive(Impala)命令
新建表并从HDFS中导入数据:CREATE EXTERNAL TABLE webpage(page_id SMALLINT,name STRING,assoc_files STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'LOCATION '/loudacre/webpage' 在Impala或者Hive中使用之前生成的、...原创 2018-08-20 11:44:42 · 430 阅读 · 0 评论 -
Flume的Sink配置为HDFS的相关参数说明
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。channel typehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值:FlumeData写入hdfs的文件名前缀,可以使...转载 2018-08-27 14:22:14 · 468 阅读 · 0 评论 -
Sqoop基础命令
获取帮助:$ sqoop help显示MySQL数据库loudacre数据库中的表:$ sqoop list-tables --connect \jdbc:mysql://localhost/loudacre --username training --password training查看sqoop import的功能$ sqoop import -help使用s...原创 2018-08-20 11:00:10 · 280 阅读 · 0 评论 -
一些基础的HDFS命令
查询HDFS中的文件或文件夹:$ hdfs dfs -ls /XXfolder/Xfolder创建查看文件内容,以test.log文件为例:$ hdfs dfs -cat /test/test.log或(直接查看test下面所有文件的内容,*为通配符,根据自己需要自行编写过滤条件)$ hdfs dfs -cat /test/*同时查看几个选定的文件:$ hdfs df...原创 2018-08-20 10:37:29 · 303 阅读 · 0 评论 -
Kafka、Morphline、Hive的配合使用过滤并格式化日志数据
目录日志数据 创建并编写2个Flume配置文件:kafka_morphline_in.conf、kafka_morphline_out.conf 在Flume配置文件存放的同目录下创建并编写Morphline配置文件:morphline.conf 启动Zookeeper 启动Kafka 以kafka_morphline_out.conf配置文件agent2启动Flume 以kafk...原创 2018-08-20 10:19:08 · 751 阅读 · 0 评论 -
Flume将日志log文件从本地导入Kafka_channel,再存储到HDFS。
作为前一篇的修改版,取出来kafka-in.conf文件中的sink和kafka-out.conf文件中的source。前一篇链接:https://blog.csdn.net/m0_37890482/article/details/81130840以下配置文件都存储于 /etc/flume-ng/conf/ 下面kafka-in.conf#--------文件从本地路径到kafk...原创 2018-08-15 11:39:42 · 650 阅读 · 0 评论 -
Flume从脱机目录(Spooldir)获取文件到HDFS
Source为本地的 /flume/weblogs_spooldir,里面存储有大量的log文件。Channel为memory。Sink为HDFS,设置为文件大小滚动。 配置文件(configuration):agent.sources = source_spoolagent.sinks = sink_hdfsagent.channels = channel_memory...原创 2018-08-10 14:25:47 · 767 阅读 · 0 评论 -
Flume将日志log文件从本地导入kafka,再从kafka导入HDFS--使用kafka作为channel
作为前面两篇文章的整合,并使用kafka作为channel:1、Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。地址:https://blog.csdn.net/m0_37890482/article/details/81126522#0-qzone-1-10214-d020d2d2a4e8d1a374a433f596ad14402、Flume根据文件中每行...原创 2018-07-20 14:00:19 · 3400 阅读 · 0 评论 -
Spark分区相关
在Linux启动spark-shell时,可以使用以下命令(两个线程):$ spark-shell --master local[2]使用sc.textFile(“path”)导入文件,然后可以使用以下命令查看分区数:scala> rdd.toDebugString()此时我从HDFS中导入了一个文件:然后查看该 RDD --- accounts的分区数:...原创 2018-08-24 08:58:55 · 175 阅读 · 0 评论