自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 基于Flume、Kafka、Spark的完整日志分析系统启动过程

这篇文章主要记录的日志分析系统相关软件的启动命令,有助于后面可以写自动化启动脚本Hadoop启动Hadoop和HDFS$ start-dfs.sh$ start-yarn.shZookeeper启动分布式协调服务Zookeeper,提供kafka的运行环境$ zkServer.sh start zoo1.cfg$ zkServer.sh start zoo2.cfg$ zkServer.sh start zoo3.cfgNginx&Python3 Flask提供靶机及web

2020-07-01 15:22:02 222

原创 关于Spark Streaming编程

Spark Steaming编程最后一步了,spark streaming 连接处理日志流,给后端,给AI这边主要是边对着教程,博客模仿着写(因为不熟悉scala语言),所以做的笔记比较少,给出的大部分是链接,有bug基本上马上就解决了,没怎么注意笔记,请见谅。这篇博客给出编程中所参考的一些文章及思路IDEA的配置https://www.cnblogs.com/duaner92/p/10451273.htmlhttps://blog.csdn.net/boling_cavalry/article

2020-07-01 15:18:14 180

原创 记一次正则表达式匹配User-Agent

由于spark streaming最后需要将原始日志分割存入数据库中,需要写正则表达式(Regex)去匹配分割Nginx日志这次get到了正则表达式的子表达式,通过子表达式一次性匹配多个项,从而用一个正则表达式提取所必要的信息但是,由于参考项目的日志与我们的日志有所不同,我们需要在其正则表达式中进行修改,增加对userAgent头和X-Forwarded-For头的匹配但是由于正则表达式的贪婪匹配,匹配引号时总会和前面的http请求一起匹配到一起,导致匹配不到足够多的子表达式,然后取数据时数组越界错误

2020-06-30 16:54:49 2569

原创 IDEA 出现Error:(1, 1) java: 非法字符: `\ufeff`

今天复制队友的机器学习的代码来跑的时候,发现IDEA出现了编译错误出现Error:(1, 1) java: 非法字符: ‘\ufeff’经查询发现,可能是由于我们俩文件编码方式不同解决方法:重新建一个utf-8文件,复制粘贴一遍,即可通过编译...

2020-06-30 10:57:13 146

原创 实训目前环境软件版本

具体软件版本如下软件版本位置CentOS7Operation SystemHadoop3.1.3/hadoop/hadoop-3.1.3/javajdk-8u251-linux-x64/usr/local/jdk1.8.0_251zookeeper3.6.1/usr/local/apache-zookeeper-3.6.1spark2.4.6/usr/local/spark-2.4.6Flume1.6.0/usr/local/ap

2020-06-29 22:50:32 107

原创 从Flume到Kafka的日志流配置

上次我们把环境安装完了,这次我们就来搞定配置。类似于武林的打通任督二脉,这次我们来打通从Nginx日志到Flume日志采集再到Kafka消费日志消息参考:https://www.jianshu.com/p/8d34a9a5fc01https://cloud.tencent.com/developer/article/1147852https://blog.csdn.net/liuwei0376/article/details/60877878https://blog.csdn.net/qq80

2020-06-19 17:29:09 213

原创 CentOS7 安装Redis数据库

这次我们来安装Redis数据库像这种比较简单暴力的安装我最喜欢了但是不过好像很多东西在yum仓库里都没有,需要自己添加仓库首先添加EPEL仓库,然后更新yum源:$ sudo yum install epel-release$ sudo yum update然后安装Redis数据库(有可能需要依赖gcc,建议先yum install gcc一波)$ sudo yum -y install redis安装完成后,直接启动$ sudo systemctl start redis或者利用

2020-06-16 19:17:10 77

原创 CentOS7 安装Flume 和 Kafka

来了来了,他来了日志获取一条龙,通过Flume获取日志,然后传给Kafka进行日志分发这边给出了Flume和Kafka的安装教程获取并安装Flume同之前一样,Flume是Apache的一个项目,直接从清华镜像站中下载下载安装一气呵成,因为直接下载的是预编译好的包,我们就不用再次编译了$ wget https://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz$ tar -zxvf ap

2020-06-16 19:15:17 233

原创 CentOS7 配置Nginx反向代理+Python Flask web环境

考虑到后面需要收集日志,这边决定先部署一个轻微的web应用到linux上,方便后续的日志收集这边采用的Nginx做反向代理,为之后的Flume提供日志,Nginx反向代理至本地的Flask的web应用,该Flask web应用为本人之前实现的一个简易XSS实验平台,方便后续的攻击日志的检测。在nginx运行的web程序为之前我在yum仓库添加nginx源,然后用yum install安装Nginx$ sudo rpm -Uvh http://nginx.org/packages/centos/7/n

2020-06-16 19:10:35 461

原创 CentOS7 安装Spark

今天我们继续我们的环境配置参考:http://dblab.xmu.edu.cn/blog/spark-quick-start-guide/https://www.cnblogs.com/phpdragon/p/12594866.html下载Spark包关于版本选择问题可以看下面的几篇文章版本对应关系:https://blog.csdn.net/xx1710/article/details/81198876查看spark的版本对应关系:https://blog.csdn.net/andyg

2020-06-16 18:53:01 243

原创 CentOS7 安装ZooKeeper

CentOS7安装Zookeeper

2020-06-12 20:37:29 656

原创 CentOS7 安装Hadoop 3.1.3 伪集群

在CentOS7上安装Hadoop伪集群

2020-06-11 18:24:00 879

原创 CentOS7 yum源更换

CentOS yum更换源

2020-06-11 18:11:04 165

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除