朋好友5-CSDN博客

原创 idea JRebel 自动编译 idea fatal error initializing plugin odpsstudio

JRebel 自动编译（自动安装 jrebel for ideal 结果打不开工程卸载才行）https://www.jianshu.com/p/d177316890e3出现异常idea fatal error initializing plugin odpsstudio解决cmd 中mkdir copy522 cd /Users/penghaoyou/Library/A...

2019-02-21 16:23:35 957

转载只是图谱地址

http://lib.csdn.net/home

2018-08-23 17:58:14 286

我面试了三家公司，在面试的过程中遇到了很多的算法问题，在选择事业发展的过程中我发现自己喜欢上了算法，因此更加确定选择大数据方向，学习剑指offer的算法开始。学了一部分继续git 代码地址https://github.com/penghaoyou5/SwordOfferJava.githttps://github.com/penghaoyou5/SwordOfferJava.githttps:...

2018-03-17 08:19:26 268

原创 python 爬取天眼查数据

没啥事帮朋友忙，直接抓包解析请求git地址：https://github.com/penghaoyou5/DemoTianYanCha.git

2018-03-02 11:03:10 6087

原创大数据日志分析系统-python脚本利用es聚合计算

之所以不进行es聚合实时查询一个是查询数量过大，另一方面是实时查询要保存大量的原始日志，现在只有5台es data节点，不能承受这么大的原始日志量。原始日志保留一定的天数要进行删除。当然也有的数据只是查询几天内的数据就直接用es的自身聚合能力了 python部分脚本示例： def main_statistic(domain,userId): body = ...

2018-02-28 15:43:31 1200

原创大数据日志分析系统-hdfs日志存储

先补充spark的博客链接，没在目录显示hdfs简介：Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。项目需求：使用hdfs进行客户需要的指定域名时间打包日志以及原始日志存储进行离线计算遇到的问题：在这一步遇到的一个重要的问题：问题：从kafka中日志直接按域名时间分类存入hdfs时速度不够,主要时数据量太大，当数据量减...

2018-02-28 05:43:17 5369

原创大数据日志分析系统-spark进行日志计算

spark简介：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。需要满足的项目需求：用spark进行实时统计，从kafka中获取数据，流式计算每分钟一次将计算结果存入es，供客户进行查询。说一次啊这里不用原来直接存入es的方式进行聚合或者存入es之后再进行计算的原因：1.直接存入es进行聚合的话es中会随着时间的推移保存大量的原始日志，es存入数据量太大的数据会产生性能问...

2018-02-27 16:52:17 1898

原创大数据日志分析系统-elasticsearch

elasticsearch简介Elasticsearch 是一个分布式、可扩展、实时的搜索与数据分析引擎。两种架构的es配置差不多选用es存储结果数据的理由：1.曾经考虑过hbase选用，也进行过真正的测试，用hbse的问题是这种键值对的数据库，不一定能够保证唯一的键（虽然能把时间戳加入key中），而且es本身只存储结果数据完全符合线上需求，并且es自身带有聚合功能，可以多个条件查询而不只是键值对...

2018-02-27 15:43:15 3477

原创大数据日志分析系统-logstash

logstash简介Logstash 是一个开源的数据收集引擎，它具有备实时数据传输能力。它可以统一过滤来自不同源的数据，并按照开发者的制定的规范输出到目的地。logstash-2.2.2的配置：从logstash-forward 到kafka的配置ubuntu@sp1:~/logstashBeforeChangeConf$ cat /home/ubuntu/logstash-2.2...

2018-02-27 14:52:57 3258 1

原创大数据日志分析系统-缓存组件kafka

kafka简介是一种高吞吐量的分布式发布订阅消息系统，当数据量不稳定，数据量大的时候想到它就对了。zookeeper简介是一个分布式的，开放源码的分布式应用程序协调服务,很多地方用到, 最常见的是为集群提供基础的、高可用HA(High Availability)服务是kafka集群的基础依赖，同时也是hadoop系列中实现HA的基础组件。实现HDFS的NamaNode和YARN的ResourceM...

2018-02-27 13:20:27 1218

原创大数据日志分析系统边缘节点日志上传-flume，filbeat,logstash-forward

上传组件简介：它们都是很好的资源上传工具，直接指定目录、文件就可以上传，通用功能不多说，区别除了与本公司产品兼容性好以外：filbeat elastic(ELK)官网推荐：占用资源少flume apache官网产品：可定制性强logstash-forward 已经过期的产品不多说。因为需求简单，只是边缘节点日志上传最终选用了filbeat 正确格式原始日志示例：1512231002.276...

2018-02-27 12:03:02 785

原创大数据日志分析系统-介绍二-整体架构介绍

首先说：技术为了需求而服务，公司的需求就是进行日志分析。公司现状：CDN公司（可以百度一下），边缘节点服务器会产生很多用户请求日志，要对日志进行各种分析和原始日志打包，最终分析结果进行收费、让客户可以获取请求日志各种分析结果、为客户进行原始日志按域名按天按小时分割打包。先说满足这样的大数据实时计算需要的几个基本组件（一定要注意版本问题，java大数据机器间通信用的是...

2018-02-25 08:55:26 1694

原创大数据日志分析系统-介绍

刚从公司离职-需要求职新公司对做过的项目做一个记录(这个记录会有一个完整的流程实现，但是具体安全细节与各种组件的基础学习不进行介绍，所有ip均不是真实ip做点保密喽)，这个记录主要是每一步的实战记录，不进行逻辑分析。经过了CDN公司日志分析实战日志日志分析系统：1.原始日志量: 每小时高的是否达到了 45303452条日志（四千五百多万条原始日志），某天日志量（这个随便选的）42211...

2018-02-24 16:42:36 4230

u014171282的博客