![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java
文章平均质量分 63
Lens5935
这个作者很懒,什么都没留下…
展开
-
大数据算法-蓄水池抽样算法(Reservoir Sampling)
背景:给定一个数据流,数据流长度N很大,且N直到处理完所有数据之前都不可知,从 N 个样本中随机选择 K 个样本,其中 N 非常大(以至于 N 个样本不能同时放入内存)或者 N 是一个未知数,请问如何在只遍历一遍数据(O(N))的情况下,能够随机选取出k个不重复的数据:数据流长度N很大且不可知,所以不能一次性存入内存。 时间复杂度为O(N)。 随机选取k个数,每个数被选中的概率为k/N。思路:假设数据序列的规模为n,需要采样的数量的为k。首先构建一个可容纳k个元素的数组,将序...原创 2021-07-22 10:57:06 · 335 阅读 · 0 评论 -
Elasticsearch-SQL 使用SQL查询Elasticsearch 安装及JDBC实现过程(附图片详解)
Elasticsearch的查询语言(DSL), Elasticsearch-SQL可以用sql查询Elasticsearch。Elasticsearch-sql的项目地址:https://github.com/NLPchina/elasticsearch-sql1、Elasticsearch-sql实现的功能:1)插件式的安装2)SQL查询3)超越SQL之外的查询4...原创 2020-04-18 11:52:22 · 3612 阅读 · 0 评论