![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
项目:电商用户日志流量分析系统
月与露西亚
这个作者很懒,什么都没留下…
展开
-
电商用户日志分析
先创建Log.java存数据package cn.tedu;import org.apache.kafka.common.protocol.types.Field;public class Log {// private String url; //访问地址 private String urlName; //资源名// private String uvid; //用户id(cookie)// private String ssid; //会话id(cooki原创 2020-11-15 16:20:15 · 216 阅读 · 0 评论 -
连接kafka时报错:Caused by: java.lang.IllegalStateException: No entry found for connection 2147483647
想要收集流式数据,但是主机一直连不上虚拟机里的kafka。主机可以ping通虚拟机,但就是不停地报错Caused by: java.lang.IllegalStateException: No entry found for connection 2147483647 at org.apache.kafka.clients.ClusterConnectionStates.nodeState(ClusterConnectionStates.java:339) at org.apache.kafka.cl原创 2020-11-15 09:30:24 · 4784 阅读 · 0 评论 -
Flink第二次练习(含流式数据初试)
Flink的官网:https://flink.apache.org/使用的软件:IntelliJ IDEA Community EditionCoreAPI:DataSet:专门处理离线数据,给离线数据处理设计了更多有针对性的API. env:ExecutionEnvironmentDataStream:一般用于处理流式数据,也可以处理离线数据env:StreamExecutionEnvironment【这一次用的是DataStream】创建SourceTestpackage cn.tedu.原创 2020-11-15 09:11:10 · 194 阅读 · 0 评论 -
Flink初次练习(Transformation)
Flink的官网:https://flink.apache.org/使用的软件:IntelliJ IDEA Community Edition创建TransformationTest文件练习一将输入的数字均乘10package cn.tedu.dataset;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.ExecutionEnvironment;import原创 2020-11-08 11:41:45 · 170 阅读 · 0 评论 -
Flink初次练习(Source、Sink)
Flink的官网:https://flink.apache.org/使用的软件:IntelliJ IDEA Community Edition第一个练习:读取目录下的文件并打印输出package cn.tedu.dataset;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.DataSource;import org.apache.flink.st原创 2020-11-08 10:08:52 · 190 阅读 · 0 评论 -
集群环境准备
准备虚拟机克隆三个虚拟机hadoop01、hadoop02、hadoop03均为NAT模式,其中hadoop01内存设置为1G(16G内存以上建议设置为2G),hadoop02和hadoop03为512M。修改为静态IP修改配置文件cd /etc/sysconfig/network-scripts #进入网络配置目录 dir ifcfg* #找到网卡配置文件 ifcfg-ens33 #找到版本原创 2020-10-25 10:40:46 · 150 阅读 · 0 评论 -
Hadoop集群基础知识
Hadoop分布式的海量数据存储和离线处理框架。HDFS:数据存储Yarn:资源管理,任务调度MapReduce:离线数据处理(计算)Flume分布式的高可用可伸缩的日志收集系统。用于收集,聚合,移动大量日志数据。是一个简单的流式处理框架。重要概念:1.Event,{“headers”:“info”,“body”:“log”},flume在接收到日志数据之后,就会将日志进行封装。【封装之后的文件叫Event】2.Source,数据源,负责接收日志数据,并将其封装3.Channel,缓存,原创 2020-10-25 09:21:24 · 118 阅读 · 0 评论