- 博客(13)
- 收藏
- 关注
原创 idea JRebel 自动编译 idea fatal error initializing plugin odpsstudio
JRebel 自动编译 (自动安装 jrebel for ideal 结果打不开工程 卸载才行)https://www.jianshu.com/p/d177316890e3出现异常idea fatal error initializing plugin odpsstudio解决cmd 中mkdir copy522 cd /Users/penghaoyou/Library/A...
2019-02-21 16:23:35 887
原创 剑指offer学习记录
我面试了 三家公司,在面试的过程中遇到了很多的算法问题,在选择事业发展的过程中我发现自己喜欢上了算法,因此更加确定选择大数据方向,学习剑指offer的算法开始。学了一部分 继续git 代码地址https://github.com/penghaoyou5/SwordOfferJava.githttps://github.com/penghaoyou5/SwordOfferJava.githttps:...
2018-03-17 08:19:26 223
原创 python 爬取天眼查数据
没啥事帮朋友忙,直接抓包解析请求git地址:https://github.com/penghaoyou5/DemoTianYanCha.git
2018-03-02 11:03:10 5944
原创 大数据日志分析系统-python脚本利用es聚合计算
之所以不进行es聚合实时查询一个是查询数量过大,另一方面是实时查询要保存大量的原始日志,现在只有5台es data节点,不能承受这么大的原始日志量。原始日志保留一定的天数要进行删除。 当然也有的数据只是查询几天内的数据就直接用es的自身聚合能力了 python部分脚本示例: def main_statistic(domain,userId): body = ...
2018-02-28 15:43:31 1125
原创 大数据日志分析系统-hdfs日志存储
先补充spark的博客链接,没在目录显示hdfs简介:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。项目需求:使用hdfs进行客户需要的指定域名时间打包日志 以及原始日志存储进行离线计算遇到的问题:在这一步遇到的一个重要的问题:问题:从kafka中日志直接按域名时间分类存入hdfs时速度不够,主要时数据量太大,当数据量减...
2018-02-28 05:43:17 5234
原创 大数据日志分析系统-spark进行日志计算
spark简介:Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。需要满足的项目需求:用spark进行实时统计,从kafka中获取数据,流式计算每分钟一次将计算结果存入es,供客户进行查询。说一次啊这里不用原来直接存入es的方式进行聚合或者存入es之后再进行计算的原因:1.直接存入es进行聚合的话es中会随着时间的推移保存大量的原始日志,es存入数据量太大的数据会产生性能问...
2018-02-27 16:52:17 1823
原创 大数据日志分析系统-elasticsearch
elasticsearch简介Elasticsearch 是一个分布式、可扩展、实时的搜索与数据分析引擎。两种架构的es配置差不多选用es存储结果数据的理由:1.曾经考虑过hbase选用,也进行过真正的测试,用hbse的问题是这种键值对的数据库,不一定能够保证唯一的键(虽然能把时间戳加入key中),而且es本身只存储结果数据完全符合线上需求,并且es自身带有聚合功能,可以多个条件查询而不只是键值对...
2018-02-27 15:43:15 3381
原创 大数据日志分析系统-logstash
logstash简介Logstash 是一个开源的数据收集引擎,它具有备实时数据传输能力。它可以统一过滤来自不同源的数据,并按照开发者的制定的规范输出到目的地。logstash-2.2.2的配置:从logstash-forward 到kafka的配置ubuntu@sp1:~/logstashBeforeChangeConf$ cat /home/ubuntu/logstash-2.2...
2018-02-27 14:52:57 3175 1
原创 大数据日志分析系统-缓存组件kafka
kafka简介是一种高吞吐量的分布式发布订阅消息系统,当数据量不稳定,数据量大的时候想到它就对了。zookeeper简介是一个分布式的,开放源码的分布式应用程序协调服务,很多地方用到, 最常见的是为集群提供基础的、高可用HA(High Availability)服务是kafka集群的基础依赖,同时也是hadoop系列中实现HA的基础组件。实现HDFS的NamaNode和YARN的ResourceM...
2018-02-27 13:20:27 1140
原创 大数据日志分析系统边缘节点日志上传-flume,filbeat,logstash-forward
上传组件简介:它们都是很好的资源上传工具,直接指定目录、文件就可以上传,通用功能不多说,区别除了与本公司产品兼容性好以外:filbeat elastic(ELK)官网推荐:占用资源少flume apache官网产品:可定制性强logstash-forward 已经过期的产品不多说。因为需求简单,只是边缘节点日志上传最终选用了filbeat 正确格式原始日志示例:1512231002.276...
2018-02-27 12:03:02 712
原创 大数据日志分析系统-介绍 二-整体架构介绍
首先说:技术为了需求而服务,公司的需求就是进行日志分析。 公司现状:CDN公司(可以百度一下),边缘节点服务器会产生很多用户请求日志,要对日志进行各种分析和原始日志打包,最终分析结果进行收费、让客户可以获取请求日志各种分析结果、为客户进行原始日志按域名按天按小时分割打包。 先说满足这样的大数据实时计算需要的几个基本组件(一定要注意版本问题,java大数据机器间通信用的是...
2018-02-25 08:55:26 1612
原创 大数据日志分析系统-介绍
刚从公司离职-需要求职新公司 对做过的项目做一个记录(这个记录会有一个完整的流程实现,但是具体安全细节与各种组件的基础学习不进行介绍,所有ip均不是真实ip做点保密喽),这个记录主要是每一步的实战记录,不进行逻辑分析。经过了CDN公司日志分析实战日志日志分析系统:1.原始日志量: 每小时高的是否达到了 45303452条日志(四千五百多万条原始日志) ,某天日志量(这个随便选的)42211...
2018-02-24 16:42:36 4128
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人