——打开所有——查看ip地址的命令——ifconfig启动zookeeper——[core]#zkServer.shstart启动kafka—[kafka]#bin/kafka-server-start.sh-daemonconfig/server.properties
启动flink——[flink]#bin/start-cluster.sh模拟生产者-消费者模型:
生产者:bin/kafka-console-producer.sh--bootstrap-serverlocalhost:9092--topictesttp
消费者:bin/kafka-console-consumer.sh--bootstrap-serverlocalhost:9092--topictesttp
——关闭所有——[flink]#cd/opt/bigdata/core/kafka[kafka]#bin/kafka-server-stop.sh
[kafka]#zkServer.shstop[kafka]#cd/opt/bigdata/core/flink/
[flink]#bin/stop-cluster.sh
解压缩——tar-zxvfspark-1.6.0-cdh5.16.2.tar.gz
日志退出:q!
1.批处理:指对一批数据进行处理
2.流处理:是指对数据流进行处理,具有时间效应
3.处理数据框架需要解决的问题:可扩展性、数据倾斜、容错性、时序错乱
4.延迟:一个事件被系统处理的总时间,一般以毫秒为单位
5.平均延迟:24小时内的平均延迟
6.分位延迟:如分别关心24小时的每小时内的延迟
7.分位延迟更能反映系统的性能
8.吞吐:一个系统最多能处理多少个事件,一般以单位时间处理的事件数量为标准
9.延迟和吞吐是衡量流处理引擎的重要指标,低延迟,高吞吐
10.滚动窗口(TumbingWindow):定义一个固定的窗口长度,长度是一个时间间隔