Flume 将本地文件通过 idea 进行wordcount

最新推荐文章于 2020-11-03 20:12:30 发布

FAtumai37

最新推荐文章于 2020-11-03 20:12:30 发布

阅读量266

点赞数 1

文章标签： flume linux

本文链接：https://blog.csdn.net/FAtumai37/article/details/105126426

版权

1. 安装flume到Linux，配置环境

命令：vim /etc/profile，添加：

2. 编辑flume的conf下的flume-env.sh.tempalte，更名为flume-env.sh，并修改如下红框内容，添加你的JAVA_HOME路径

查看flume环境

命令：flume-ng version

3. 然后在 flume下创建一个文件夹 agentconf，在这个文件夹下创建一个conf文件，我将它命名为log-avro.conf

在log-avro.conf 中配置source、sink、channel参数

注意： 这里的 source 类型为 Spooling Directory Source ，能监控某一个指定的文件目录（通过将文件放入磁盘上的“spooling”目录中，该信息源可以让您摄取数据。此消息源将监视新文件的指定目录，并在新文件出现时解析事件。事件解析逻辑是可插入的。在将一个给定的文件完全读入通道后，它被重命名为表示完成(或可选删除)）。

sink 类型为 Avro Sink（avro sink形成了Flume分层收集支持的一半。发送到此接收器的Flume事件将转换为Avro事件并发送到配置的主机名/端口对。事件从已配置的通道以批量配置的批处理大小获取）

channel 类型为 memory （事件存储在具有可配置最大大小的内存队列中。适用场景：需要更高吞吐量并准备在代理故障的情况下丢失上载数据的流的理想选择。缺点：Memory Channel是一个不稳定的隧道，它在内存中存储所有事件。如果进程异常停止，内存中的数据将不能让恢复。受内存大小的限制。）

4. 接下来就可以启动 flume 了，输入如下命令：

bin/flume-ng agent --conf ./conf/ -f ./agentconf/log-avro.conf -Dflume.root.logger=DEBUG,console -n a

5. 在idea中写一个FlumeWordCount的scala文件，代码如下：

package scala_data

import org.apache.spark.SparkConf
import org.apache.spark.streaming.flume.FlumeUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object FlumeWordCount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[2]").setAppName("networkWordCount")
    val ssc = new StreamingContext(conf,Seconds(5))

    val lines = FlumeUtils.createStream(ssc,"192.168.0.135",8888)

    val words = lines.map( x => new String( x.event.getBody.array()).trim).flatMap(_.split(" "))

    val pairs = words.map(word =>(word,1))
    val wordCount = pairs.reduceByKey(_+_)
    wordCount.print()
    ssc.start()
    ssc.awaitTermination()

  }
}

-------pom.xml 配置文件内容：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.swun.spark</groupId>
    <artifactId>sparkStreaming_demo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <encoding>UTF-8</encoding>
        <scala.version>2.11.12</scala.version>
        <spark.version>2.3.4</spark.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>


        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-flume_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
    </dependencies>
    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>

        <plugins>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-surefire-plugin</artifactId>
                <version>2.19</version>
                <configuration>
                    <skip>true</skip>
                </configuration>
            </plugin>
        </plugins>

    </build>

</project>

然后运行代码，产生时间片的处理

6. 在我们指定的 /home/data/testdata 目录下新建文件并编辑文件内容，就可以在idea里看到单词统计后的显示了

至此，Flume 将本地文件通过 idea 进行wordcount就成功啦~~

我出的一些错误：

①hadoop的伪分布集群没有开启

②在配置log-avro.conf文件时，写sink的内容

a1.sinks.k1.hostname = 192.168.0.135 我写成了

a1.sinks.k1.bind = 192.168.0.135 出了大错！

一定要注意 log-avro.conf 里的内容与 idea 代码里的主机名端口号配对哦！

~~~~~~

有时候运行 idea 不成功，多试一次看看，再来一次就可以了...

还要注意Linux机的时区和时间与本机的一致！！！

FAtumai37

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flume 将本地文件通过 idea 进行wordcount

1. 安装flume到Linux，配置环境命令：vim /etc/profile，添加：2. 编辑flume的conf下的flume-env.sh.tempalte，更名为flume-env.sh，并修改如下红框内容，添加你的JAVA_HOME路径查看flume环境命令：flume-ng version3. 然后在 flume下创建一个文件夹 agent...
复制链接

扫一扫