2017年09月_点火三周

转载 Pandas和spark在DataFrame上的区别

PandasSpark工作方式单机single machine tool，没有并行机制parallelism不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop，能处理大量数据

2017-09-30 08:43:57 7158

原创 elasticsearch painless最强教程二

painless的正则匹配painless查找操作符painless匹配操作符painless pattern matcherpainless CharSequence 在上一篇文章elasticsearch painless最强教程中，已经介绍了一些painless的基本例子，喜欢动脑子的同学应该已经看到了plainless或者说是elasticsearch的script强大之处了。我

2017-09-29 16:37:54 17861 1

原创 elasticsearch painless最强教程

何为painlesspainless的特性简单的例子具体例子初始化数据用painless获取doc的值通过painless更新对象值单条记录更新批量更新Dates

2017-09-29 15:19:41 69617 7

原创如何使用logstash更新已有的elasticsearch记录

如何使用logstash更新已有的elasticsearch记录常使用elasticsearch的童鞋，一定会遇到这种情况：我们需要修改已存储在ES中的数据，无论是数据内容或者是数据结构，来满足我们不断变化的需求。当我们需要修改数据的时，如果自己撸码一条一条的改动数据，不免有点低级，特别在大量的数据都需要修改的时候，这根本就是无法完成的任务。此时，势必要求助于工具。不知道Logstash是

2017-09-15 17:46:53 15149 1

原创 Logstash的性能测试二

当然，我们需要的不是logstash的管道速度，而是需要知道在特定filter配置下，logstash的吞吐量。因此，可以把输入改为正常的log输入，比如sysloginput { generator { count => 2000000 message => ',Sep 7 09:30:01,HostName=sz180001,IP=lumpb.c

2017-09-15 15:38:24 2471

日志从客户端应用被收集，到最终写入elasticsearh被用户搜索到需要在好几段网络的流转。首先从客户端（filebeat或rsyslog)到kafka，再由kafka到logstash，再从logstash到elasticsearch。我们要提高整个集群的性能，首先得有专门的性能测试。但性能测试不能直接做起点到终点的测试，因为当性能不如预期的时候，这种测试无法知道性能的瓶颈到底出现在整个pip

2017-09-15 15:37:14 5593 1

原创 fold函数和reduce函数的区别（不特指spark）

In a fold over a collection, the accumulator type may be different than the type of the collection, and a zero element is usually given. In a reduce, you don't give a zero element and the accumulato

2017-09-15 10:47:16 3827

原创 Elasticsearch 429，logstash没有更新kafka队列状态的问题

最近遇到一个新的问题，当使用filebeat加载历史日志文件的时候，大量的数据会被加入到kafka队列，logstash会从队列里面读取大量的event发送到ES端。最开始的表现形式是： logstash一直不断的往ES发送信息，ES里面的数据也一直在增加，日志的写入量远大于原始的日志量，并且没有停止的迹象。经查看kafka的consumer checker，发现队列的offset一直没有发生

2017-09-13 11:19:43 7170

原创 logstash性能测试

日志从客户端应用被收集，到最终写入elasticsearh被用户搜索到需要在好几段网络的流转。首先从客户端（filebeat或rsyslog)到kafka，再由kafka到logstash，再从logstash到elasticsearch。我们要提高整个集群的性能，首先得有专门的性能测试。但性能测试不能直接做起点到终点的测试，因为当性能不如预期的时候，这种测试无法知道性能的瓶颈到底出现在整个pipe

2017-09-13 11:18:29 14600 1

原创 Logstash的性能测试二

使用正常的log做测试

2017-09-13 11:17:49 18508

点火三周的专栏

转载 Pandas和spark在DataFrame上的区别

原创 elasticsearch painless最强教程二

原创 elasticsearch painless最强教程

原创如何使用logstash更新已有的elasticsearch记录

原创 Logstash的性能测试二

原创 Logstash的性能测试

原创 fold函数和reduce函数的区别（不特指spark）

原创 Elasticsearch 429，logstash没有更新kafka队列状态的问题

原创 logstash性能测试

原创 Logstash的性能测试二

911-2019 信息安全技术日志分析产品安全技术要求

空空如也

911-2019 信息安全技术 日志分析产品安全技术要求

空空如也

911-2019 信息安全技术日志分析产品安全技术要求