大数据
小红_Su
这个作者很懒,什么都没留下…
展开
-
大数据查重去重方案及性能优化
最近做针对百万级别的数据的去重工作,现抽空写下笔记。做这个去重,是基于前同事的基础上做改造,原来是用的simHash算法做文本相似计算,上网查了下,simHash算法是相对来说,在大数据领域比较受欢迎的查重算法,话不多说,来一步步说下我的设计之路。一、先简单介绍下simHash.传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。传统的ha...原创 2018-06-28 15:45:16 · 9568 阅读 · 2 评论 -
如何利用kibana对Elasticsearch做性能监控 (X-Pack)
使用x-pack插件可以对Elasticsearch做性能监控 如何安装x-pack 1、kibana 安装 x-packbin/kibana-plugin install x-pack2、elasticsearch 安装 x-packbin/elasticsearch-plugin install x-pack!移除插件bin/kibana-plugin remo...原创 2018-07-17 14:55:21 · 6507 阅读 · 0 评论 -
java-mongo复杂管道聚合aggregate的填坑之路(分页、allowDiskUse、统计)
因项目需要,要对mongodb中的数据,做排序再做group还要做总数统计还要对结果筛选,而且数据量又是百万级别的,看了整整一天的spring-data-mongo的源码、mongo-driver的源码、还逛了大半天国外论坛,总算是把功能搞出来了,在此做一下笔记。一、遇到的坑1、对大数据量的东西,首先实现起来还要考虑性能考虑内存,这是坑一。2、项目选用了的框架,spring-data-mongo,...原创 2018-07-06 11:33:33 · 17826 阅读 · 6 评论 -
ES集群搭建设计建议
· marster节点,大于等于1,最好大于3,越多越好,防止集群marster在挂掉的时候出现脑裂。· data node,大于等于1,不建议只用一个节点做为数据节点,除非机器够强大,有足够的内存和存储空间。使用多台机器作为data node节点,记得设置cluster.routing.allocation.same_shard.host: true,防止同一个shard的primary...原创 2018-07-19 17:25:21 · 937 阅读 · 0 评论 -
ELK结合Beats工具的搭建使用(Metricbeat、Filebeat、Topbeat)
ELK简介ELK,是ES官方提供的集群监控工具软件。ELK:Elasticsearch , Logstash, Kibana ,都是开源软件,并有一系列插件作为辅助,例如X-Pack用来监控ES本身的资源使用指标。ELK之间的合作机制:L(Logstash)作为信息收集者,主要是用来对日志的搜集、分析、过滤,支持大量的数据获取方式,一般工作方式为c/s架构,client端安装在需要...原创 2018-07-25 17:52:48 · 13953 阅读 · 7 评论