![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
ddxu
啊啊啊
展开
-
数据倾斜问题和滑动窗口uv统计问题
背景:item的滑动窗口内的uv统计,item会有头部内容问题,即会引起数据倾斜。注释:实时统计,java语言。关键词:HyperLogLog、Redis、storm。一、uv统计1.对于大数据量的uv实时统计肯定不能使用set来实现,目前大多使用的方法是HyperLogLog估算。对于固定窗口的uv统计相对来说也是比较容易实现的,但是对于滑动窗口就很不好做了。2.最开始我们使用的是一个流式计算平...原创 2017-12-14 12:11:48 · 1212 阅读 · 0 评论 -
TF,Keras,Cafe,Theano,torch
一、TensorFlow二、Keras1.Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras适用的Python版本是:Python 2.7-3.6原创 2017-11-07 14:37:18 · 563 阅读 · 0 评论 -
staragent总结
待完善转载 2017-09-12 19:50:17 · 1585 阅读 · 0 评论 -
esper
有一个专栏:http://blog.csdn.net/luonanqin/article/details/9900295public class PersonMap { public static void main(String[] args) { EPServiceProvider epService = EPServic原创 2017-09-05 16:02:07 · 429 阅读 · 0 评论 -
Apache Kafka
它被设计为一个分布式系统,易于向外扩展;它同时为发布和订阅提供高吞吐量;它支持多订阅者,当失败时能自动平衡消费者;它将消息持久化到磁盘,因此可用于批量消费,例如ETL,以及实时应用程序。图1:Kafka生产者、消费者和代理环境生产者可以选择自己喜欢的序列化方法对消息内容编码。为了提高效率,生产者可以在一个发布请求中发送一组消息。下面的代码演示原创 2017-09-05 15:21:29 · 458 阅读 · 0 评论 -
Storm
一、Jstorm1.详解地址:http://www.cnblogs.com/antispam/p/4182210.html原创 2017-09-05 14:01:53 · 360 阅读 · 0 评论 -
最大似然估计 (MLE) 最大后验概率(MAP)
转自:http://www.cnblogs.com/sylvanas2012/p/5058065.html1) 最大似然估计 MLE给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。 最大似然估计(MLE,Maxim转载 2017-08-15 20:31:58 · 534 阅读 · 0 评论 -
GBDT:梯度提升决策树
转自:http://www.jianshu.com/p/005a4e6ac775综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的转载 2017-08-04 13:51:59 · 403 阅读 · 0 评论 -
HyperLogLog资料总结
基本介绍:http://blog.csdn.net/heiyeshuwu/article/details/41248379http://www.jianshu.com/p/0cf5f8bc1079几个比较好的文档:http://antirez.com/news/75http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf原创 2017-07-19 20:46:42 · 1172 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32转载 2016-07-26 21:30:43 · 270 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
原文:http://blog.csdn.net/v_july_v/article/details/7624837支持向量机通俗导论(理解SVM的三层境界)作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年3月。前言 动笔写转载 2016-06-06 19:52:15 · 594 阅读 · 0 评论