日志项目
qq_42506914
这个作者很懒,什么都没留下…
展开
-
taildir Source
a1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = TAILDIRa1.sources.r1.filegroups = f1 f2a1.sources.r1.filegroups.f1 = /home/atguigu/taildir/example.loga1.sources.r1.filegroups...原创 2019-03-19 20:17:18 · 426 阅读 · 0 评论 -
优雅关闭ssc
当Spark工作在Client模式下时,由于Driver在作业提交机器上运行,Driver进程是可以看到的,可以用kill(不是kill -9)杀死Driver进程,此时,如果设置了优雅停止,就会调用钩子函数进行优雅地停止。当Spark工作在Cluster模式下时,Driver运行在集群的那一台机器上我们是无法确定的(YARN模式下由ResourceManager决定),因此无法用kill取杀...原创 2019-03-22 19:53:57 · 757 阅读 · 0 评论 -
日志项目在线分析每个城市的点击数
日志项目在线分析每个城市的点击数从kafka里面消费,由SparkStreaming来处理,存到hbase里面问题:table.incrementColumnValue 这里用了这个方法 可以指定列的值 自增如果对于这种问题,我也想用put来做呢1、使用updateStateByKey ,然后put到hbase,相同的列,版本保存最新的,但是局限性,它每次会把历史所有的...原创 2019-03-22 18:04:19 · 117 阅读 · 0 评论 -
日志写入hdfs过程中
生产中,我们日志 从 flume -》 kafka -》hdfs按天滚动,如果写入hdfs过程出现问题,程序终止,非正常退出。因为我们是用流向hdfs里面写的,非正常退出,流未关闭,没有字节大小。如果重启过快,再打开流会出问题(前一个流未关闭)解决问题:1、生产中产生的本地日志,也是按天的,可以先把出错的文件删掉,在第二天,手动导一下;...原创 2019-03-22 09:32:14 · 833 阅读 · 0 评论 -
把hdfs上面的文件定时导入到hive里面
创建分区表CREATE external TABLE ext_startup_logs(userId string,appPlatform string,appId string,startTimeInMs bigint,activeTimeInMs bigint,appVersion string,city string)PARTITIONED BY (y string, ...原创 2019-03-22 09:10:54 · 781 阅读 · 0 评论 -
离线处理阶段的一些问题
1、因为虚拟机上之前有0.11的kafka,在zk上存有信息,我们安装了0.8的kafka,需要先把zk上的数据清理掉,避免冲突2、hive的不支持json格式的存储具体操作步骤如下:1) 将json-serde-1.3.8-jar-with-dependencies.jar导入到hive的/opt/module/hive/lib路径下。2) 在/opt/module/hive/co...原创 2019-03-22 09:03:35 · 198 阅读 · 0 评论 -
离线处理sql
里面用了一些自定义的日期函数,使用起来更加方便当然hive也有一些日期函数from_unixtime(unix时间戳) 可以转换成日期时间,后面多参 可以加上格式unix_timestamp("2019-10-10 11:11:11") 可以转换成unix时间戳 后面多参 可以加上格式unix 时间戳是10位的 到秒 和13位的不一样 可以转换cast(1...原创 2019-03-22 08:50:39 · 370 阅读 · 0 评论 -
从kafka里面读取存到hdfs
方法一:自己写程序,从kafka里面消费,写到hdfs上面,但是注意idea工具maven kafka的依赖版本要和虚拟机里的kafka版本对上; <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11<...原创 2019-03-22 08:41:00 · 4354 阅读 · 1 评论 -
flume的配置和kafka
配置两个flume sink为kafkasink到flume官方文档(注意版本)a1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = org.apache.flume.source.taildir.TaildirSourcea1.sources.r1.positionFile = /opt/mod...原创 2019-03-21 10:04:26 · 305 阅读 · 0 评论 -
项目服务器
tomcat分日志服务器 和业务服务器,我们项目用的这套,放在日志服务器可以。 我们这套项目,有专门生产日志的服务器,(业务服务器向日志服务器发送请求,日志服务器来生产),我们用flume来监控。 如果想直接在业务服务器里面,在web项目里面Controller里面直接写到kafka,那不行,服务器压力大,可以选择落盘...原创 2019-03-23 08:54:53 · 173 阅读 · 0 评论