学习笔记
huxin9611
这个作者很懒,什么都没留下…
展开
-
实战环境搭建一
JDK安装Scala安装下载-解压-配置到系统环境变量中Maven安装Hadoop安装下载-解压-配置到系统环境变量-检查是否成功配置ssh:ssh-keygen -t rsa 全部回车ll -a查看到有一个.ssh目录[hadoop@hadoop000 .ssh]$ lsid_rsa id_rsa.pub known_hosts[hadoop@hadoop000 ...原创 2019-05-01 17:32:16 · 241 阅读 · 0 评论 -
打造通用流处理平台
整合日志输出到Flumestreaming.confagent1.sources=avro-sourcesagent1.channels=logger-channelagent1.sinks=log-sink#define sourceagent1.sources.avro-sources.type=avroagent1.sources.avro-sources.bind=0.0....原创 2019-05-06 15:09:49 · 163 阅读 · 0 评论 -
spark streaming 实时流处理实战笔记五
单节点Kafka部署 zookeeper安装Zookeeper启动:zkServer.sh startKafka单节点broker的部署及使用安装zookeeper和Scala 配置到系统环境变量中Kafka配置文件server.properties broker.id=0Listeners:9092host.namelog.dirszookeeper.connec...原创 2019-05-01 10:38:23 · 109 阅读 · 0 评论 -
spark streaming 实时流处理实战笔记五
4-1 课程目录分布式消息队列kafkakafka概述和消息系统类似消息中间件:生产者和消费者妈妈:生产者你:消费者馒头:数据流正常情况下:生产一个,消费一个其他情况:一直生产,你吃到某一个馒头时,你卡住了(机器故障),馒头就丢失了一直生产,做馒头速度快,你吃来不及,馒头也就丢失了拿个碗/篮子,馒头做好后先放到篮子里,你要吃的时候去篮子里面取出来吃篮子/框:kafka...原创 2019-05-01 15:35:08 · 129 阅读 · 0 评论 -
Spark Streaming项目实战
需求说明今天到现在为止实战课程的访问量从今天到现在为止从搜索引擎引流过来的实战课程访问量互联网访问日志概述为什么要记录用户访问日志1)网站页面的访问量2)网站的黏性3)推荐用户行为日志内容用户行为日志分析的意义网站的眼睛网站的神经网站的大脑Python日志产生器开发之产生访问url和ip信息使用Python脚本实时产生数据Python实时日志产生器开发新建 gene...原创 2019-05-09 14:18:05 · 1840 阅读 · 1 评论 -
Python常用容器 list、tuple、dict、set
listPython内置的一种数据结构有序可更改(添加、删除)声明>>>game = ["123", "LOL","456"]>>>game["123", "LOL","456"]获取列表长度>>>len(game)3获取元素>>>game[0]'123'增加元素-末尾追加>&g...转载 2019-07-17 17:27:47 · 204 阅读 · 0 评论 -
Linux下c语言编程之Makefile文件的编写
首先,add.c文件编写#include"test.h"#include<stdio.h>int add(int a,int b){ return a+b;}int main(){ printf(" 2 + 3 = %d\n",add(2,3)); printf(" 2 - 3 = %d\n",add(2,3)); ...原创 2019-08-05 10:20:19 · 510 阅读 · 0 评论 -
camera(1)
相机模组镜头(OPTICS 光学知识)滤光片图像传感器(模拟电路、数字电路)音圈电机OTP–EEPROM(存储)接口(MIPI.I2C.POWER)算法(3A)AEFrame Average(帧平均)Center Weighted(中央重点测光)AWBGray WorldWhite WorldAFISP...原创 2019-08-02 09:06:35 · 251 阅读 · 0 评论 -
Spark Streaming实时流项目实战 笔记十
Spark Streaming整合Kafka实战实战一:Receiver-based1)先启动zookeeper2)启动kafka[hadoop@hadoop000 bin]$ ./kafka-server-start.sh -daemon /home/hadoop/app/kafka_2.11-0.9.0.0/config/serverserver-1.properties ser...原创 2019-05-06 12:33:32 · 144 阅读 · 0 评论 -
spark stramin实时流项目实战 9
Spark Streaming整合Flume实战实战一:Flume-style Push-based ApproachFlume Agent的编写:flume_push_streaming.conf$FLUME_HOME/conf 下创建simple-agent.sources = netcat-sourcesimple-agent.sinks = avro-sinksimple-ag...原创 2019-05-06 09:46:30 · 102 阅读 · 0 评论 -
Spark Streaming 实时流处理项目实战 笔记八
Spark Streaming进阶带状态的算子:UpdateStateByKey实战:计算到目前为止累积出现的单词个数写入到MySQL中使用Spark Streaming进行统计分析Spark Streaming统计结果写入到MySQL基于window的统计实战:黑名单过滤实战:Spark Streaming整合Spark SQL实战...原创 2019-05-05 15:18:17 · 185 阅读 · 0 评论 -
实战环境搭建二
Spark环境搭建Spark安装下载(下载Spark的源代码)-解压-配置系统环境变量-检查是否安装成功spark官网下载(根据spark的源码进行编译)运行spark:./spark-shell (如果是本地测试就用local,如果是跑在集群上就用yarn) (最终项目是跑在yarn上进行演示)./spark-shell --master local[2]Spark c...原创 2019-05-01 18:04:11 · 128 阅读 · 0 评论 -
spark streaming实时流笔记六
spark streaming 入门概述Spark Streaming is an extension of the core Spark API that enables scalable,high-throughput, (高吞吐量)fault-tolerant (容错)stream processing of live data streams.Spark Streaming 的...原创 2019-05-01 21:44:42 · 147 阅读 · 0 评论 -
实时流处理项目笔记一
修改配置文件需要root权限, sudo command只有一个地方需要修改/etc/hosts192.168.15.129 hadoop000192.168.15.129 localhosthadoop生态系统:cdh5.7.0下载地址http://archive.cloudera.com/cdh5/cdh/5/jdk:1.8spark:2.2scala:2.11.8spar...原创 2019-04-27 19:38:22 · 221 阅读 · 0 评论 -
实时流处理笔记二
分布式日志收集框架Flume3-2业务现状分析3-3Flume概述Flume官网:http://flume.apache.org/Flume is a distributed, reliable, and available service for efficiently collecting(收集), aggregating(聚合), and moving(移动) large amoun...原创 2019-04-27 23:18:36 · 105 阅读 · 0 评论 -
Spark Streaming实时流处理实战笔记七
Spark Streaming核心概念核心概念核心概念之StreamingContext在IDEA中 搜索StreamingContext.scaladef this(sparkContext: SparkContext, batchDuration: Duration) = {this(sparkContext, null, batchDuration)}def this(con...原创 2019-05-02 22:01:00 · 146 阅读 · 0 评论 -
实时流处理笔记三
Flume案例实战二需求:监控一个文件实时采集新增的数据输出到控制台[hadoop000@hadoop000 data]$ touch data.log[hadoop000@hadoop000 data]$ cat data.log[hadoop000@hadoop000 data]$ pwd/home/hadoop000/data创建 exec-memory-logger.conf...原创 2019-04-28 12:32:30 · 88 阅读 · 0 评论 -
spark streaming实时流处理笔记四
Flume项目实战3需求:将A服务器上的日志实时采集到B服务器技术选型: exec source + memory channel +avro sinkAvro source + memory channel + logger sinkexec-memory-avro.confName the components on this agentexec-memory-avro.sourc...原创 2019-04-28 14:09:33 · 122 阅读 · 0 评论 -
常用软件的快捷键使用
Notepad++ALT+鼠标左键 列编辑CTRL+F 查找CTRL+H 替换CTRL+N 新建一个文件CTRL+W 关闭当前文件Ctrl-Shift-Up 将当前行上移一行Ctrl-L 删除当前行Ctrl-T 帮助中说是将当前行与上一行交换位置Ctrl-U 转换为小写Ctrl-Shift-U 转换为大写完整版:https://www.cnblogs.com/du...原创 2019-08-02 13:53:07 · 200 阅读 · 0 评论