- 博客(7)
- 资源 (5)
- 收藏
- 关注
转载 <转> GBDT(MART)概念简介
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种用于回归的机器学习算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。当把目标函数做变换后,该算法亦可用于分类或排序。 本文主要从高层明确几个GBDT概念,主要讲GBDT的两个版本以及GBDT是什么不是什么
2016-09-26 14:38:55 412
转载 <转>Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。 我
2016-09-20 16:50:00 1107
转载 <转>Spark Streaming:大规模流式数据处理的新贵
提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询(interactive query
2016-09-20 16:19:07 288
转载 <转>Spark Streaming实时计算框架介绍
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景。
2016-09-20 15:19:55 308
转载 <转>ElasticSearch优化系列六:索引过程
大家可能会遇到索引数据比较慢的过程。其实明白索引的原理就可以有针对性的进行优化。ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展,而这ES主要是用tranlog进行各节点之间的数据平衡。所以从上我可以通过索引的settings进行第一优化: “index.translog.flush_threshold_ops”:”10000” 这两个参数第一是到translog数据达到多少条进
2016-09-20 14:21:51 335
转载 <转>Spark体系架构
最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍醐灌顶的感觉,从JVM内存分配到Spark集群的资源管理,步步深入,感触颇多。因此,在周末的业余时间里,将此文的核心内容译成中文,并在这里与大家分享。如在翻译过程中有文字上的表达纰
2016-09-20 09:59:22 448
转载 <转>【NLP】TF-IDF
出处URL地址:http://blog.csdn.net/lk7688535/article/details/52527917 目录(?)[-] 有一个词a有一个语料DD中有n篇文档TFIDFTF-IDFthen应用在NLP的task缺点优化总结附 有一个词a,有一个语料D,D中有n篇文档 TF TF,Term Frequency的缩写,中
2016-09-18 11:30:17 358
clementine的中文教程
2013-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人