大数据训练营

大数据训练营

使用 Spark MLlib 做 K-means 聚类分析

摘要: MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的...

2017-06-28 18:58:08

阅读数 2356

评论数 0

面试干货!21个必知数据科学面试题和答案

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。 下面是答案。 ...

2017-06-28 17:21:29

阅读数 12194

评论数 0

TDW千台Spark千亿节点对相似度计算

相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算会引入大量的网络开销,导致性能低下。我们借助于Spark对内存计算的支持以及图划分的...

2017-06-28 14:08:34

阅读数 2039

评论数 0

Scikit-learn使用总结

在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一...

2017-06-27 16:29:55

阅读数 2173

评论数 0

如何对一个算法进行复杂度分析

算法复杂度是在《数据结构》这门课程的第一章里出现的,因为它稍微涉及到一些数学问题,所以很多同学感觉很难,加上这个概念也不是那么具体,更让许多同学复习起来无从下手,下面我们就这个问题给各位考生进行分析。 首先了解一下几个概念。一个是时间复杂度,一个是渐近时间复杂度。前者是某个算法的时间耗费,它...

2017-06-27 12:05:23

阅读数 2137

评论数 0

非常详细GC学习笔记

GC学习笔记 这是我公司同事的GC学习笔记,写得蛮详细的,由浅入深,循序渐进,让人一看就懂,特转到这里。 一、GC特性以及各种GC的选择 1、垃圾回收器的特性 2、对垃圾回收器的选择 2.1 连续 VS. 并行 2.2 并发 VS. stop-the-wor...

2017-06-26 22:43:38

阅读数 1997

评论数 0

JVM调优系列:(五)JVM常用调试参数和工具

JVM常用调试参数: –verbose:gc在虚拟机发生内存回收时在输出设备显示信息 -Xloggc:filename把GC相关日志信息记录到文件以便分析 -XX:-HeapDumpOnOutOfMemoryError当首次遭遇OOM时导出此时堆中相关信息 -XX:OnEr...

2017-06-25 22:49:25

阅读数 2015

评论数 0

JVM调优系列:(四)GC垃圾回收

跟踪收集算法: 复制(copying): 将堆内分成两个相同空间,从根(ThreadLocal的对象,静态对象)开始访问每一个关联的活跃对象,将空间A的活跃对象全部复制到空间B,然后一次性回收整个空间A。因为只访问活跃对象,将所有活动对象复制走之后就清空整个空间,不用去访问死对象,不需要标...

2017-06-25 22:48:52

阅读数 2000

评论数 0

JVM调优系列:(三)类加载和执行机制

类加载机制 JVM的类加载是通过ClassLoader及其子类来完成的,类的层次关系和加载顺序可以由下图来描述: 每个ClassLoader加载Class的过程是: 1.检测此Class是否载入过(即在cache中是否有此Class),如果有到8,如果没有到2 ...

2017-06-24 18:54:51

阅读数 2000

评论数 0

JVM调优系列:(二)JVM运行时数据区域

1) Method Area 2) Heap 3) Java Stacks 4) PC Registers 5) Native Method Stacks   Java的JVM的内存模型大致可分为3个区: 堆区: 1.存储的全部是对象,每个对...

2017-06-23 18:51:22

阅读数 1987

评论数 0

JVM调优系列:(一)什么是JVM

SUN的JDK从1.3.1开始使用HotSpot虚拟机技术,主要使用C++实现,JNI接口部分用C实现. Java原先是把源代码编译为字节码在虚拟机执行,这样执行速度较慢.而HotSpot编译器将常用的部分代码编译为本地(native)代码,这样显著高了性能. HotSpot包括一个解...

2017-06-23 18:50:50

阅读数 1988

评论数 0

ALS算法讲解

Kendall秩相关系数(Kendall rank correlation coefficient) 对于秩变量对(xi,yi),(xj,yj): (xi−xj)(yi−yj)⎧⎩⎨⎪⎪>0,=0,0,concordantneither concordant nor ...

2017-06-22 22:53:05

阅读数 23821

评论数 2

Elasticsearch Java虚拟机配置详解

ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。   我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我...

2017-06-22 11:29:52

阅读数 1989

评论数 0

elasticsearch介绍集群,模拟横向扩展节点、节点宕机、改变分片

elasticsearch用于构建高可用和可扩展的系统。扩展的方式可以是购买更好的服务器(纵向扩展)或者购买更多的服务器(横向扩展),Elasticsearch能从更强大的硬件中获得更好的性能,但是纵向扩展也有一定的局限性。真正的扩展应该是横向的,它通过增加节点来传播负载和增加可靠性。对于大多数数...

2017-06-21 14:30:13

阅读数 2252

评论数 0

记录Flume使用KafkaSource的时候Channel队列满了之后发生的怪异问题

Flume的这个问题纠结了2个月,因为之前实在太忙了,没有时间来研究这个问题产生的原理,今天终于研究出来了,找出了这个问题所在。 先来描述一下这个问题的现象: Flume的Source用的是KafkaSource,Sink用的是Custom Sink,由于这个Custom Sink写的有一点小...

2017-06-19 22:40:24

阅读数 6481

评论数 0

Elasticsearch写入性能优化

性能测试 在一个节点的一个分片,不设置副本,测试性能在完全默认设置上记录性能数据,作为测试的基准线确保性能测试持续30分钟以上以确认长时间的性能;短时间的测试可能不会碰到segment合并和GC,无法确认这些因素的影响每次基于默认基准线更改一个参数,如果性能有提升就保留设置,并基于此设置做后...

2017-06-17 23:43:26

阅读数 4108

评论数 0

关于python中json load出来编码为unicode的问题的解决

技术方法来源网址: http://stackoverflow.com/questions/956867/how-to-get-string-objects-instead-of-unicode-ones-from-json-in-Python 昨天遇到一个问题: ...

2017-06-16 13:01:17

阅读数 12062

评论数 0

特征选择 (feature_selection)

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高...

2017-06-13 23:43:04

阅读数 6743

评论数 0

推荐系统评价:NDCG方法概述

摘要:哪一种模型更适合挖掘信息,主要的决策因子是推荐质量,而推荐系统包括很多很棘手的问题,下面就由这篇文章带给大家推荐系统评价。 【编者按】在信息过剩的互联网时代,推荐系统的地位随着大数据的普及愈发重要。评估一个推荐模型的质量面临很多棘手的问题,我们常用的指标是直接的准确率、召回率,但准...

2017-06-13 22:24:31

阅读数 6065

评论数 0

关于推荐系统中的特征工程

转载请注明 http://phunters.lofter.com/  在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞feature工作繁琐又不重要不如多堆几个模型,想入手实际问题的小朋友又不知道怎...

2017-06-13 20:19:13

阅读数 2047

评论数 0

提示
确定要删除当前文章?
取消 删除