
大数据
文章平均质量分 75
程序媛一枚~
热爱是最好的学习动力。
Either outstanding or out. (要么出众,要么出局)
展开
-
Spark简介
Spark通过两种方式使用Hadoop:一种是存储,另一种是处理。由于Spark具有自己的集群管理计算,因此仅将Hadoop用于存储目的。Spark 的关键思想是- [Resilient Distributed Datasets(RDD 弹性分布式数据集)];它支持内存中处理计算。这意味着,它将内存状态存储为跨作业的对象,并且该对象可在这些作业之间共享。内存中的数据共享比网络和磁盘快10到100倍。弹性分布式数据集(RDD)是Spark的基本数据结构。它是对象的不可变分布式集合。原创 2024-12-02 20:36:48 · 964 阅读 · 0 评论 -
RabbitMQ入门教程(安装,管理插件,Publisher/Consumer/交换机/路由/队列/绑定关系,及如何保证100%投递等)
RabbitMQ入门教程(安装,管理插件,Publisher/Consumer/交换机/路由/队列/绑定关系,及如何保证100%投递等)原创 2022-11-24 19:34:50 · 1316 阅读 · 2 评论 -
ES Aggs count distinct group by聚合排序查询
ES Aggs count distinct group by聚合排序查询原创 2022-11-27 21:45:00 · 1758 阅读 · 0 评论 -
Java Hbase查询接口条件正确查询不到踩坑记录,查询大小写不敏感,存储必须小写
Java Hbase查询接口条件正确查询不到踩坑记录,查询大小写不敏感,存储必须小写原创 2022-11-13 23:45:00 · 258 阅读 · 1 评论 -
Hbase基础(特点、架构、应用场景、集群搭建、HA设计)这一篇就够了
这篇博客将由简入繁,入门HBase,将介绍Hbase的特点、架构、应用场景、集群搭建、HA设计等。原创 2021-07-21 21:37:22 · 1595 阅读 · 4 评论 -
ES单字段支持的最大字符数
在使用ES时,需要用到进行检索的字段都需设置为 keyword,不需要检索的可以设置content。设置keyword,默认不分词,它的最大长度和utf-8编码有关,最大长度为32766字节,如果字段长度超过这个最大值,就会报如下错误:java.lang.IllegalArgumentException: Document contains at least one immense term in field=“groupTemplateValue”(whose UTF8 encoding is l原创 2021-06-07 20:42:36 · 8956 阅读 · 4 评论 -
Java多线程读取本地照片为二进制流,并根据系统核数动态确定线程数
Java多线程读取图片内容并返回1. ExecutorService线程池2. 效率截图3. 源码1. ExecutorService线程池ExecutorService线程池,并可根据系统核数动态确定线程池最大数;// 最大、最小线程数一致,均为系统核数*10+1;链表阻塞对列最多提交200个任务,这个值的设置很关键 private static int workerNum = Runtime.getRuntime().availableProcessors() * 10 + 1; pr原创 2020-12-24 18:33:19 · 565 阅读 · 2 评论 -
Java8 Stream应用:Map合并、过滤、遍历、values int求和等
1. Java多个Map合并// 多个Map<Long,Integer>, 根据key相同的,value累积求和;public static Map mapCombine(List<Map<Long,Integer>> list) { Map<Long, Integer> map = new HashMap<>(); for (Map<Long,Integer> m : list) { Iterator<Long原创 2020-10-22 15:54:50 · 8894 阅读 · 0 评论 -
Java测试List<Object>根据其某个属性去重俩种方法效率
需要用到根据gpsTime double类型对List进行去重;尝试了俩种办法,就像知道耗时与性能;1. 法一:// 根据gpsTime去重imagePostList = imagePostList.stream().collect( collectingAndThen( toCollection(() -> new TreeSet<>(comparing(n -> n.getGpsTime()))), ArrayList::new));原创 2020-10-25 20:16:39 · 1037 阅读 · 0 评论 -
Java多线程,Thread,Runnable,Callable & Task,Future<Task>,CompletionService
一、Java多线程的方法1. 继承 Thread2. 实现 Runnable3. 实现 Callable 可以有返回值package com.test;import java.util.ArrayList;import java.util.List;import java.util.concurrent.Callable;class MyTread extends Thread { public void run() { System.out.println(T原创 2020-08-25 15:24:36 · 282 阅读 · 0 评论 -
ES强制删除docs.deleted 标记的文档 document
ES查看集群状态、节点、索引等及基本查询ES会产生一些 docs.deleted 的数据如下图,怎么彻底删除呢?删除数据的时候:可以使用_delete_by_query,然而这并不彻底。只是逻辑删除标记为deleted,磁盘空间还是占用的;只有当数据量达到一定时,segment file合并的时候,才可能物理删除;我强烈建议不要使用delete_by_query,而要使用Curator之类的东西,以便可以删除整个索引,而不仅仅是删除索引中文档的一部分。 delete_by_query不是磁盘空间管理原创 2020-08-05 18:58:56 · 5736 阅读 · 0 评论 -
ES集群状态、节点、索引等查看及根据字段、排序查询
ES集群基础:查看集群:http://172.xxx.xxx.8:9200查看状态:http://172.xxx.xxx.8:9200/_cat/health?v查看索引:http://172.xxx.xxx.8:9200/_cat/indices?v查看节点:http://172.xxx.xxx.8:9200/_cat/nodes?v查看磁盘空间:http://172.xxx.xxx.8:9200/_cat/allocation?v查看节点的分配情况:原创 2020-08-05 18:55:27 · 4980 阅读 · 0 评论 -
elasticsearch 索引 red 状态恢复 green
一、elasticsearch 索引 red 状态恢复 green错误原因由于CPU占用过高或者有部分节点的分片不可用,未被分配;解决:重新分配未被分配的分片;新增一个节点以便于重新进行分片分配;查看节点的分配情况:http://172.xxx.xxx.8:9200/_cat/shards找到某个节点id:http://172.xxx.xxx.8:9200/_nodes/process重新分配:curl -X POST -d '{ "commands" : [ {原创 2020-07-03 14:10:12 · 2571 阅读 · 0 评论