《Spark用户评论监控实时报警系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛
                                            第10章 监控报警系统实战

原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/master/code/第10章

本文源码地址:https://github.com/githubwaynefong/Projects_SparkStreaming/tree/master/监控报警系统

                       (本文代码在原书代码基础上进行修改,增加了大量注释,修复了几个bug)

一、环境

开发环境:
    系统:Win10
    开发工具:scala-eclipse-IDE
    项目管理工具:Maven 3.6.0
    JDK 1.8
    Scala 2.11.11
    Spark (Streaming) 2.4.3
    spark-streaming-kafka-0-10_2.11 (Spark Streaming 提供的Kafka集成接口)
        注1. 末尾的2.11 代表scala版本;
        注2. kafka-0-10 代表支持 kafka 0.10 及以上版本,此版本为新版本(老版本 0-8)
        注3. 集成接口使用方式,访问以下官方链接:
            http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html
    Kafka_2.11-2.2.1(2.11表示对应的scala版本,2.2.1表示kafka版本)
    MySQL:mysql-connector-java-5.1.47

作业运行环境:
    系统:Linux CentOS7(两台机:主从节点,2核)
        master : 192.168.190.200
        slave1 : 192.168.190.201
    JDK 1.8
    Scala 2.11.11
    Spark 2.4.3
    ZooKeeper 3.4.14
    Kafka_2.11-2.2.1
    MySQL 5.6.44 (仅部署master单节点)

二、背景及系统设计图

1. 背景 

对于各大论坛(forum)、App Store 及应用宝等渠道,每天都会产生大量的用户评论,分析这些用户评论,能够实时掌握应用情况,帮助应用开发人员及时做出调整。在市面上有很多成熟的分析网站,如腾讯WeTest、Thinkinggame、微热点等,该类网站会针对某个特定领域收集网络上的各类数据,然后进行分析、归纳,展示给用户,对于已经订阅的用户,根据用户要求提供提供报警推送服务。

本项目开发一个简易爬虫,从热门的 Taptap 社区爬取指定游戏的用户评论;然后用 Spark Streaming 对评论进行过滤、分词;最后通过 Java 应用程序将结果归纳汇总,根据规则进行报警。

2. 系统设计图

三、项目代码结构图(Maven项目)

1. 爬虫系统子项目

2. 流式分析子项目

3. 统计报警子项目

四、启动相关服务,打包运行

--------------------------------------------------------------------------------------
**保证两台主机开启(master和slave1),然后启动如下软件:

master节点执行:
1. MySQL开机自启
2. 启动Spark:(master节点将开启Master守护进程,slave1节点将开启Worker守护进程)
  $ /opt/spark-2.4.3-bin-hadoop2.7/sbin/start-all.sh

master和slave1节点执行:
1. 启动ZK:
  $ zkServer.sh start
2. 启动Kafka:(-daemon 为隐藏启动日志,后面是启动的配置文件)
  $ kafka-server-start.sh -daemon /opt/kafka_2.11-2.2.1/config/server.properties

--------------------------------------------------------------------------------------
**作业打包提交:
  在项目根目录(monitorAlarmCrawler/)下打包:
    $ mvn clean install
    在 monitorAlarmCrawler/target/ 下生成Jar包:monitorAlarmCrawler-0.1-jar-with-dependencies.jar
    将此Jar包上传至master节点的目录下

  在项目根目录(monitorAlarmStatistic/)下打包:
    $ mvn clean install
    在 monitorAlarmStatistic/target/ 下生成Jar包:monitorAlarmStatistic-0.1-jar-with-dependencies.jar
    将此Jar包上传至master节点的目录下

  在项目根目录(monitorAlarmCount/)下打包:
    $ mvn clean install
    在 monitorAlarmCount/target/ 下生成Jar包:MonitorAlarmCount.jar
    将此Jar包上传至master节点的目录下
--------------------------------------------------------------------------------------
终端A 登陆 master节点执行(可用多个 Power Shell 连接)
1. 提交Spark Streaming作业:(master节点)
  $ spark-submit --class sparkstreaming_action.statistic.main.MonitorAlarmStatistic --num-executors 1 --executor-cores 2 --conf spark.default.parallelism=1000 monitorAlarmStatistic-0.1-jar-with-dependencies.jar
  <终端打印如下信息:>

 

--------------------------------------------------------------------------------------
终端B 登陆 master节点执行(可用多个 Power Shell 连接)
1. 启动爬虫爬取游戏评论:
  $ java -cp monitorAlarmCrawler-0.1-jar-with-dependencies.jar sparkstreaming_action.crawler.main.Producer 10 monitorAlarm master:9092,slave1:9092
  参数1:10 代表爬取10页评论数据
  参数2:monitorAlarm 代表主题
  参数3:master:9092,slave1:9092 代表Kafka的brokers(引导服务列表)
  <终端打印如下信息:>

 

[Spark UI] 此时,流式分析子系统的Executor节点上有如下处理信息:
19/07/16 21:32:10 WARN MonitorAlarmStatistic$: [KafkaOutput] output to monitorAlarmCount	gameId: 2301
19/07/16 21:32:10 WARN SegmentService$: [Segment_Success] gameId: 2301	gameName: 王者荣耀	time elapsed: 1	MonitorGames count: 1
--------------------------------------------------------------------------------------
终端C 登陆 master节点执行(可用多个 Power Shell 连接)
1. 启动报警程序:
  $ java -cp .\MonitorAlarmCount-jar-with-dependencies.jar sparkstreaming_action.count.main.ConsumerMain
  <终端打印如下信息:>
1)一开始是垃圾过滤正则模板的加载:
2019-07-16 21:33:23 INFO  TrashFilterUtils:97 - patterns_appstore.txt rules:
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <qq>, content: qq|扣扣|釦釦
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <微信>, content: 微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <色情对象>, content: 处女|少女|美女|少妇|处男|妹妹|幼女|童女|菊花
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <福利内容>, content: 扣b|q币|扣币|qb|流量|话费|红包
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <色情黄>, content: 黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <联系我>, content: 加我|私我|联系我|q我|私信我|找我
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <加入qq>, content: (加|加入)(<qq>|pp群|群|裙|qun)
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <数字>, content: [0-9]
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <数字英文>, content: [0-9a-zA-Z]
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <中文字符>, content: [一-龥]
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <星级>, content: 一|二|三|四|五|[0-9]
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <点赞>, content: 双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下)
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <网>, content: 网|罔|網|辋|wang
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <片>, content: 偏|篇|片|pian
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (加|加入)(我|这|这个).*?(<微信>|<qq>|pp群|群|裙|qun|<数字英文>{7,}), new pattern: (加|加入)(我|这|这个).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun|[0-9a-zA-Z]{7,})
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: ^(?=.*(<联系我>|色群))(?=.*(<数字英文>{7,})), new pattern: ^(?=.*(加我|私我|联系我|q我|私信我|找我|色群))(?=.*([0-9a-zA-Z]{7,}))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 支付宝.*?(<数字英文>{6,}), new pattern: 支付宝.*?([0-9a-zA-Z]{6,})
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (借款|贷款|欠款|融资|理财|基金|出售).*?(<微信>).*?(<数字英文>{6,}), new pattern: (借款|贷款|欠款|融资|理财|基金|出售).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx).*?([0-9a-zA-Z]{6,})
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 出号, new pattern: 出号
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 卖号, new pattern: 卖号
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 买号, new pattern: 买号
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<点赞>)得, new pattern: (双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))得
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<点赞>)(<中文字符>{0,5})(送|给|发[^生]|领取|就领|有[^(啥|用)]|有$), new pattern: (双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))([一-龥]{0,5})(送|给|发[^生]|领取|就领|有[^(啥|用)]|有$)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 取消(<中文字符>{0,2})(赞|点赞|击赞), new pattern: 取消([一-龥]{0,2})(赞|点赞|击赞)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 手速.*?(<点赞>), new pattern: 手速.*?(双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (双击|(点<中文字符>{0,2}下))(<中文字符>{0,2})取消, new pattern: (双击|(点[一-龥]{0,2}下))([一-龥]{0,2})取消
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 抚摸, new pattern: 抚摸
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 下体, new pattern: 下体
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 婹, new pattern: 婹
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 做爱, new pattern: 做爱
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 喘息, new pattern: 喘息
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: JJ|JJ, new pattern: JJ|JJ
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 无码|无瑪, new pattern: 无码|无瑪
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (打炮[^(兵|战)])|(打炮$), new pattern: (打炮[^(兵|战)])|(打炮$)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (18|十八)(<中文字符>{0,1})禁, new pattern: (18|十八)([一-龥]{0,1})禁
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (强奸|迷奸|抽插|淫辱|猥亵).*?(<色情对象>), new pattern: (强奸|迷奸|抽插|淫辱|猥亵).*?(处女|少女|美女|少妇|处男|妹妹|幼女|童女|菊花)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 自(摸|模|mo|抚|扣|口|抠|kou)出水, new pattern: 自(摸|模|mo|抚|扣|口|抠|kou)出水
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 意外怀孕, new pattern: 意外怀孕
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 避孕套, new pattern: 避孕套
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 内裤, new pattern: 内裤
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 桃花运, new pattern: 桃花运
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: ((电影|影片)(<色情黄>))|((<色情黄>)(电影|影片)), new pattern: ((电影|影片)(黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情))|((黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情)(电影|影片))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<色情黄>)((<片>)|(<网>)), new pattern: (黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情)((偏|篇|片|pian)|(网|罔|網|辋|wang))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<色情黄>|色|se|做爱|座爱|作爱|zuo爱|昨爱|做ai)(<片>)(<网>), new pattern: (黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情|色|se|做爱|座爱|作爱|zuo爱|昨爱|做ai)(偏|篇|片|pian)(网|罔|網|辋|wang)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (sao|骚|荡|当)妇, new pattern: (sao|骚|荡|当)妇
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 手淫|苍老师, new pattern: 手淫|苍老师
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 邂逅, new pattern: 邂逅
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 兼职, new pattern: 兼职
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 月入, new pattern: 月入
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 大额, new pattern: 大额
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 生活费|抚养费, new pattern: 生活费|抚养费
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 一般的游戏我不玩, new pattern: 一般的游戏我不玩
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<微信>|<qq>).*?(免费|收益|销售|出售|(挣(<中文字符>{0,4})(钱|元|块))), new pattern: (微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦).*?(免费|收益|销售|出售|(挣([一-龥]{0,4})(钱|元|块)))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (看看|看一看).*?(<微信>|<qq>|pp群), new pattern: (看看|看一看).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: ^([↖↗↘↙↓↑←→▋█︾]), new pattern: ^([↖↗↘↙↓↑←→▋█︾])
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (一月|一个月|([0-9]{1,2})个月)([0-9]{1,})(yuan|元|块), new pattern: (一月|一个月|([0-9]{1,2})个月)([0-9]{1,})(yuan|元|块)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (一日|([0-9]{1,2})日)([0-9]{1,})(yuan|元|块), new pattern: (一日|([0-9]{1,2})日)([0-9]{1,})(yuan|元|块)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<微信>|<qq>|q群|扣群|扣qun)广告, new pattern: (微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|q群|扣群|扣qun)广告
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 广告费|广告歌|热线电话|广告公司, new pattern: 广告费|广告歌|热线电话|广告公司
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 不是广告, new pattern: 不是广告
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (来玩|每人).*?(送|给|发[^生]|领取).*?(<福利内容>), new pattern: (来玩|每人).*?(送|给|发[^生]|领取).*?(扣b|q币|扣币|qb|流量|话费|红包)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (送|给|充|发)(\d+).*?(<福利内容>), new pattern: (送|给|充|发)(\d+).*?(扣b|q币|扣币|qb|流量|话费|红包)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 想看.*?(加|加入)(<微信>|<qq>|pp群|群|裙|qun), new pattern: 想看.*?(加|加入)(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 要(<福利内容>).*?(加|加入).*?(<微信>|<qq>|pp群|群|裙|qun|<数字>{7,}), new pattern: 要(扣b|q币|扣币|qb|流量|话费|红包).*?(加|加入).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun|[0-9]{7,})
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (灌水|水贴)专用, new pattern: (灌水|水贴)专用
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 签到(贴|专用), new pattern: 签到(贴|专用)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 外挂搬砖, new pattern: 外挂搬砖
2019-07-16 21:33:23 INFO  TrashFilterUtils:155 - pattern num: 53
2019-07-16 21:33:23 INFO  TrashFilterUtils:97 - patterns_forum.txt rules:
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <qq>, content: qq|扣扣|釦釦
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <微信>, content: 微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <色情对象>, content: 处女|少女|美女|少妇|处男|妹妹|幼女|童女|菊花
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <福利内容>, content: 扣b|q币|扣币|qb|流量|话费|红包
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <色情黄>, content: 黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <联系我>, content: 加我|私我|联系我|q我|私信我|找我
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <加入qq>, content: (加|加入)(<qq>|pp群|群|裙|qun)
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <数字>, content: [0-9]
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <数字英文>, content: [0-9a-zA-Z]
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <中文字符>, content: [一-龥]
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <星级>, content: 一|二|三|四|五|[0-9]
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <点赞>, content: 双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下)
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <网>, content: 网|罔|網|辋|wang
2019-07-16 21:33:23 INFO  TrashFilterUtils:117 - symbol: <片>, content: 偏|篇|片|pian
2019-07-16 21:33:23 ERROR TrashFilterUtils:114 - symbol line:  , splits is not 2
2019-07-16 21:33:23 ERROR TrashFilterUtils:114 - symbol line:  , splits is not 2
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (加|加入)(我|这|这个).*?(<微信>|<qq>|pp群|群|裙|qun|<数字英文>{7,}), new pattern: (加|加入)(我|这|这个).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun|[0-9a-zA-Z]{7,})
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: ^(?=.*(<联系我>|色群))(?=.*(<数字英文>{7,})), new pattern: ^(?=.*(加我|私我|联系我|q我|私信我|找我|色群))(?=.*([0-9a-zA-Z]{7,}))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 支付宝.*?(<数字英文>{6,}), new pattern: 支付宝.*?([0-9a-zA-Z]{6,})
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (借款|贷款|欠款|融资|理财|基金|出售).*?(<微信>).*?(<数字英文>{6,}), new pattern: (借款|贷款|欠款|融资|理财|基金|出售).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx).*?([0-9a-zA-Z]{6,})
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<点赞>)得, new pattern: (双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))得
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<点赞>)(<中文字符>{0,5})(送|给|发[^生]|领取|就领|有[^(啥|用)]|有$), new pattern: (双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))([一-龥]{0,5})(送|给|发[^生]|领取|就领|有[^(啥|用)]|有$)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 取消(<中文字符>{0,2})(赞|点赞|击赞), new pattern: 取消([一-龥]{0,2})(赞|点赞|击赞)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 手速.*?(<点赞>), new pattern: 手速.*?(双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (双击|(点<中文字符>{0,2}下))(<中文字符>{0,2})取消, new pattern: (双击|(点[一-龥]{0,2}下))([一-龥]{0,2})取消
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 抚摸, new pattern: 抚摸
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 下体, new pattern: 下体
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 婹, new pattern: 婹
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 做爱, new pattern: 做爱
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 喘息, new pattern: 喘息
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: JJ|JJ, new pattern: JJ|JJ
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 无码|无瑪, new pattern: 无码|无瑪
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (打炮[^(兵|战)])|(打炮$), new pattern: (打炮[^(兵|战)])|(打炮$)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (18|十八)(<中文字符>{0,1})禁, new pattern: (18|十八)([一-龥]{0,1})禁
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (强奸|迷奸|抽插|淫辱|猥亵).*?(<色情对象>), new pattern: (强奸|迷奸|抽插|淫辱|猥亵).*?(处女|少女|美女|少妇|处男|妹妹|幼女|童女|菊花)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 自(摸|模|mo|抚|扣|口|抠|kou)出水, new pattern: 自(摸|模|mo|抚|扣|口|抠|kou)出水
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 意外怀孕, new pattern: 意外怀孕
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 避孕套, new pattern: 避孕套
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 内裤, new pattern: 内裤
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 桃花运, new pattern: 桃花运
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: ((电影|影片)(<色情黄>))|((<色情黄>)(电影|影片)), new pattern: ((电影|影片)(黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情))|((黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情)(电影|影片))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<色情黄>)((<片>)|(<网>)), new pattern: (黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情)((偏|篇|片|pian)|(网|罔|網|辋|wang))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<色情黄>|色|se|做爱|座爱|作爱|zuo爱|昨爱|做ai)(<片>)(<网>), new pattern: (黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情|色|se|做爱|座爱|作爱|zuo爱|昨爱|做ai)(偏|篇|片|pian)(网|罔|網|辋|wang)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (sao|骚|荡|当)妇, new pattern: (sao|骚|荡|当)妇
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 手淫|苍老师, new pattern: 手淫|苍老师
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 邂逅, new pattern: 邂逅
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 兼职, new pattern: 兼职
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 月入, new pattern: 月入
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 生活费|抚养费, new pattern: 生活费|抚养费
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 一般的游戏我不玩, new pattern: 一般的游戏我不玩
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<微信>|<qq>).*?(免费|收益|销售|出售|(挣(<中文字符>{0,4})(钱|元|块))), new pattern: (微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦).*?(免费|收益|销售|出售|(挣([一-龥]{0,4})(钱|元|块)))
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (看看|看一看).*?(<微信>|<qq>|pp群), new pattern: (看看|看一看).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: ^([↖↗↘↙↓↑←→▋█︾]), new pattern: ^([↖↗↘↙↓↑←→▋█︾])
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (一月|一个月|([0-9]{1,2})个月)([0-9]{1,})(yuan|元|块), new pattern: (一月|一个月|([0-9]{1,2})个月)([0-9]{1,})(yuan|元|块)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (一日|([0-9]{1,2})日)([0-9]{1,})(yuan|元|块), new pattern: (一日|([0-9]{1,2})日)([0-9]{1,})(yuan|元|块)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (<微信>|<qq>|q群|扣群|扣qun)广告, new pattern: (微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|q群|扣群|扣qun)广告
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 广告费|广告歌|热线电话|广告公司, new pattern: 广告费|广告歌|热线电话|广告公司
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 不是广告, new pattern: 不是广告
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (来玩|每人).*?(送|给|发[^生]|领取).*?(<福利内容>), new pattern: (来玩|每人).*?(送|给|发[^生]|领取).*?(扣b|q币|扣币|qb|流量|话费|红包)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (送|给|充|发)(\d+).*?(<福利内容>), new pattern: (送|给|充|发)(\d+).*?(扣b|q币|扣币|qb|流量|话费|红包)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 想看.*?(加|加入)(<微信>|<qq>|pp群|群|裙|qun), new pattern: 想看.*?(加|加入)(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 要(<福利内容>).*?(加|加入).*?(<微信>|<qq>|pp群|群|裙|qun|<数字>{7,}), new pattern: 要(扣b|q币|扣币|qb|流量|话费|红包).*?(加|加入).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun|[0-9]{7,})
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: (灌水|水贴)专用, new pattern: (灌水|水贴)专用
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 签到(贴|专用), new pattern: 签到(贴|专用)
2019-07-16 21:33:23 INFO  TrashFilterUtils:142 - old pattern: 外挂搬砖, new pattern: 外挂搬砖
2019-07-16 21:33:23 INFO  TrashFilterUtils:155 - pattern num: 49
2)之后从Kafka消费数据,进行统计:
2019-07-16 21:33:24 INFO  ConsumerMain:75 - [Record info: ] gameId: 2301	gameName: 王者荣耀	review: 就打着很难受,我都删了又下,下了又删大概有十几次了
reviewSeg: 就	打着	很	难受	,	我	都	删	了	又	下	,	下	了	又	删	大概	有	十几次	了
2019-07-16 21:33:24 INFO  ConsumerMain:75 - [Record info: ] gameId: 2301	gameName: 王者荣耀	review: 2小时6连跪,不知道什么匹配机制匹配的什么神仙队友,刺客伤害没辅助高
reviewSeg: 2	小时	6	连	跪	,	不	知道	什么	匹配	机制	匹配	的	什么	神仙	队友	,	刺客	伤害	没	辅助	高
2019-07-16 21:33:24 INFO  ConsumerMain:75 - [Record info: ] gameId: 2301	gameName: 王者荣耀	review: 不用删删下下的,不想玩扔那就好,想看登一下就行了,下载也很烦的
reviewSeg: 不用	删	删下	下	的	,	不想	玩	扔	那就好	,	想	看	登	一下	就行了	,	下载	也	很烦	的
2019-07-16 21:33:24 INFO  ConsumerMain:75 - [Record info: ] gameId: 2301	gameName: 王者荣耀	review: 同感啊,就两个小时真的输不起
reviewSeg: 同感	啊	,	就	两个	小时	真的	输不起
2019-07-16 21:33:24 INFO  ConsumerMain:75 - [Record info: ] gameId: 2301	gameName: 王者荣耀	review: 从s1开始,内测刚结束的时候朋友推荐我玩的,从来没接触过任何moba类游戏。当时周围朋友们都玩联盟,唯独我不玩,我一直玩的是Fps游戏,习惯了用wasd走路,哈哈哈。
reviewSeg: 从	s1	开始	,	内测	刚	结束	的	时候	朋友	推荐	我	玩	的	,	从来	没	接触	过	任何	moba	类	游戏	。	当时	周围	朋友	们	都	玩	联盟	,	唯独	我	不	玩	,	我	一直	玩	的	是	fps	游戏	,	习惯	了	用	wasd	走路	,	哈哈哈	。
2019-07-16 21:33:24 INFO  ConsumerMain:75 - [Record info: ] gameId: 2301	gameName: 王者荣耀	review: 朋友推荐我玩的时候,我也没想什么,甚至当时这游戏叫什么名字都不知道。什么英雄什么装备我都搞不懂,但它就是有一种不知明的魅力,让我一局又一局的进行对战。
reviewSeg: 朋友	推荐	我	玩	的	时候	,	我	也	没想	什么	,	甚至	当时	这	游戏	叫	什么	名字	都	不	知道	。	什么	英雄	什么	装备	我	都	搞不懂	,	但	它	就是	有	一种	不知	明	的	魅力	,	让	我	一局	又	一局	的	进行	对战	。
2019-07-16 21:33:24 INFO  ConsumerMain:75 - [Record info: ] gameId: 2301	gameName: 王者荣耀	review: 起初呢我出装备都是聚金币聚到能直接买一件大件才用,朋友看到了说你怎么不买那些小装备,我说那小装备有啥用啊,肯定最贵的最好啊!他说你傻啊,后面可以合成的,我还挺惊讶的,原来可以这样啊。
reviewSeg: 起初	呢	我	出	装备	都	是	聚	金币	聚到	能	直接	买	一件	大件	才	用	,	朋友	看到	了	说	你	怎么	不买	那些	小	装备	,	我	说	那	小	装备	有	啥	用	啊	,	肯定	最贵	的	最好	啊	!	他	说	你	傻	啊	,	后面	可以	合成	的	,	我	还	挺	惊讶	的	,	原来	可以	这样	啊	。
3)成功消费一批数据进行offsets提交的信息:
2019-07-16 21:33:33 INFO  KafkaUtils:127 - === After commitSync, now partition positions:
2019-07-16 21:33:33 INFO  KafkaUtils:146 - partiton 0 position: 1315
4)预警词频达到阈值时,出现的报警信息,会输出至数据库中:
2019-07-16 21:33:33 WARN  AlarmLayer:70 - [Alarm] 游戏王者荣耀报警:平衡性问题 (rule_id: 2)
5)被判为垃圾评论的信息:
2019-07-16 21:34:00 INFO  ConsumerMain:75 - [Record info: ] gameId: 2301	gameName: 王者荣耀	review: ————————————
reviewSeg: —	—	—	—	—	—	—	—	—	—	—	—
2019-07-16 21:34:00 WARN  FilterLayer:42 - [filterTrash] record: gameId: 2301	gameName: 王者荣耀	review: ————————————
reviewSeg: —	—	—	—	—	—	—	—	—	—	—	—
--------------------------------------------------------------------------------------
1.查询MySQL数据库:
  mysql> select * from spark.alarms;
  <如下结果:>

 

 

 

 

五、出现的错误

1. mvn clean install 编译项目时,报警告:文件的编码GBK的不可映射字符,如下图:

     | 解决方式:在 pom.xml 的编译插件处声明字符集编码方式 utf8,如下图:

     | 参考博文:使用Maven编译项目遇到——“maven编码gbk的不可映射字符”解决办法

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值