2016年09月_yongjian_luo

12月 11月 10月 09月 07月 06月 05月 04月

转载 <转> GBDT（MART）概念简介

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种用于回归的机器学习算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。当把目标函数做变换后，该算法亦可用于分类或排序。本文主要从高层明确几个GBDT概念，主要讲GBDT的两个版本以及GBDT是什么不是什么

2016-09-26 14:38:55 412

转载 <转>Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我

2016-09-20 16:50:00 1107

转载 <转>Spark Streaming：大规模流式数据处理的新贵

提到Spark Streaming，我们不得不说一下BDAS（Berkeley Data Analytics Stack），这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看，目前的大数据处理可以分为如以下三个类型。复杂的批量数据处理（batch data processing），通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询（interactive query

2016-09-20 16:19:07 288

随着大数据的发展，人们对大数据的处理要求也越来越高，原有的批处理框架MapReduce适合离线计算，却无法满足实时性要求较高的业务，如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架，通过它提供的丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景。

2016-09-20 15:19:55 308

转载 <转>ElasticSearch优化系列六：索引过程

大家可能会遇到索引数据比较慢的过程。其实明白索引的原理就可以有针对性的进行优化。ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展，而这ES主要是用tranlog进行各节点之间的数据平衡。所以从上我可以通过索引的settings进行第一优化： “index.translog.flush_threshold_ops”:”10000” 这两个参数第一是到translog数据达到多少条进

2016-09-20 14:21:51 335

转载 <转>Spark体系架构

最近看到一篇关于Spark架构的博文，作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道，他对Spark理解地非常深入，读完他的 “spark-architecture” 这篇博文，有种醍醐灌顶的感觉，从JVM内存分配到Spark集群的资源管理，步步深入，感触颇多。因此，在周末的业余时间里，将此文的核心内容译成中文，并在这里与大家分享。如在翻译过程中有文字上的表达纰

2016-09-20 09:59:22 448

转载 <转>【NLP】TF-IDF

出处URL地址：http://blog.csdn.net/lk7688535/article/details/52527917 目录(?)[-] 有一个词a有一个语料DD中有n篇文档TFIDFTF-IDFthen应用在NLP的task缺点优化总结附有一个词a，有一个语料D，D中有n篇文档 TF TF,Term Frequency的缩写，中

2016-09-18 11:30:17 358

clementine的中文教程

clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程

2013-11-18

clementine基础培训一

2013-11-18

Hbase入门与使用

2013-07-23

Hadoop_eclipse-plugin编译方法

2012-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yongjian_luo的专栏