- 博客(10)
- 资源 (1)
- 收藏
- 关注
转载 Pandas和spark在DataFrame上的区别
PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据
2017-09-30 08:43:57 7158
原创 elasticsearch painless最强教程 二
painless的正则匹配painless查找操作符painless匹配操作符painless pattern matcherpainless CharSequence 在上一篇文章elasticsearch painless最强教程中,已经介绍了一些painless的基本例子,喜欢动脑子的同学应该已经看到了plainless或者说是elasticsearch的script强大之处了。我
2017-09-29 16:37:54 17861 1
原创 elasticsearch painless最强教程
何为painlesspainless的特性简单的例子具体例子初始化数据用painless获取doc的值通过painless更新对象值单条记录更新批量更新Dates
2017-09-29 15:19:41 69617 7
原创 如何使用logstash更新已有的elasticsearch记录
如何使用logstash更新已有的elasticsearch记录常使用elasticsearch的童鞋,一定会遇到这种情况:我们需要修改已存储在ES中的数据,无论是数据内容或者是数据结构,来满足我们不断变化的需求。当我们需要修改数据的时,如果自己撸码一条一条的改动数据,不免有点低级,特别在大量的数据都需要修改的时候,这根本就是无法完成的任务。此时,势必要求助于工具。不知道Logstash是
2017-09-15 17:46:53 15149 1
原创 Logstash的性能测试 二
当然,我们需要的不是logstash的管道速度,而是需要知道在特定filter配置下,logstash的吞吐量。 因此,可以把输入改为正常的log输入,比如sysloginput { generator { count => 2000000 message => ',Sep 7 09:30:01,HostName=sz180001,IP=lumpb.c
2017-09-15 15:38:24 2471
原创 Logstash的性能测试
日志从客户端应用被收集,到最终写入elasticsearh被用户搜索到需要在好几段网络的流转。首先从客户端(filebeat或rsyslog)到kafka,再由kafka到logstash,再从logstash到elasticsearch。我们要提高整个集群的性能,首先得有专门的性能测试。但性能测试不能直接做起点到终点的测试,因为当性能不如预期的时候,这种测试无法知道性能的瓶颈到底出现在整个pip
2017-09-15 15:37:14 5593 1
原创 fold函数和reduce函数的区别(不特指spark)
In a fold over a collection, the accumulator type may be different than the type of the collection, and a zero element is usually given. In a reduce, you don't give a zero element and the accumulato
2017-09-15 10:47:16 3827
原创 Elasticsearch 429,logstash没有更新kafka队列状态的问题
最近遇到一个新的问题,当使用filebeat加载历史日志文件的时候,大量的数据会被加入到kafka队列,logstash会从队列里面读取大量的event发送到ES端。最开始的表现形式是: logstash一直不断的往ES发送信息,ES里面的数据也一直在增加,日志的写入量远大于原始的日志量,并且没有停止的迹象。 经查看kafka的consumer checker,发现队列的offset一直没有发生
2017-09-13 11:19:43 7170
原创 logstash性能测试
日志从客户端应用被收集,到最终写入elasticsearh被用户搜索到需要在好几段网络的流转。首先从客户端(filebeat或rsyslog)到kafka,再由kafka到logstash,再从logstash到elasticsearch。我们要提高整个集群的性能,首先得有专门的性能测试。但性能测试不能直接做起点到终点的测试,因为当性能不如预期的时候,这种测试无法知道性能的瓶颈到底出现在整个pipe
2017-09-13 11:18:29 14600 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人