Soul Joy Hub

但行好事,莫问前程。

《机器学习实战》(十)——k-means、k-means++、二分K-means

原理 创建K个点作为起始质点。每次迭代如下: 将各个数据点分配到离它距离最近的质点的簇。 全部分配后,用各个簇中的数据点的位置均值来更新质点的位置。 直到达到迭代次数,或者所有的数据点所在的簇不再改变。 可参阅:http://blog.csdn.net/u011239443/article/de...

2017-03-30 18:45:23

阅读数 4102

评论数 0

《机器学习实战(Scala实现)》(四)——朴素贝叶斯

原理关于算法原理可以参阅:http://blog.csdn.net/u011239443/article/details/53735609#t35构建词向量pythondef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', ...

2017-03-29 12:55:47

阅读数 1643

评论数 1

《机器学习实战(Scala实现)》(三)——决策树

信息熵 p(x):分类结果x的概率,即分类结果为x的数据量/总数据量 信息:l(x) = -log2(p(x)) 信息熵:信息的期望值 -(p(x1)l(x1) + p(x2)l(x2) + ……) ,可以评价一组不同类别的划分结果的混沌度。 def calcShannonEnt(dataset)...

2017-03-26 18:19:45

阅读数 3340

评论数 0

TCP协议中的三次握手和四次挥手(图解)

http://blog.csdn.net/whuslei/article/details/6667471/建立TCP需要三次握手才能建立,而断开连接则需要四次握手。整个过程如下图所示:先来看看如何建立连接的。 【更新于2017.01.04 】该部分内容配图有误,请大家见谅,正确的配图如下,错误配图...

2017-03-22 14:45:38

阅读数 541

评论数 0

《机器学习实战(Scala实现)》(二)——k-邻近算法

算法流程1.计算中的set中每一个点与Xt的距离。 2.按距离增序排。 3.选择距离最小的前k个点。 4.确定前k个点所在的label的出现频率。 5.返回频率最高的label作为测试的结果。实现python# -*- coding: utf-8 -*- ''' Created on ...

2017-03-18 14:41:08

阅读数 3475

评论数 0

RDD,DataFrame与DataSet

http://blog.csdn.net/wo334499/article/details/51689549 http://www.jianshu.com/p/c0181667daa0RDD介绍可以参阅 : http://blog.csdn.net/u011239443/article/deta...

2017-03-16 16:27:12

阅读数 456

评论数 0

Java GC基本算法

1、JVM内存组成结构 JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,结构图如下所示: 1)堆 所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代,新生代又被进一步划分为Eden和Survivor区,Survivor由FromSpa...

2017-03-13 14:02:50

阅读数 316

评论数 0

Java 线程池 ThreadPoolExecutor 源码分析

转载请注明本文出自 clevergump 的博客:http://blog.csdn.net/clevergump/article/details/50688008, 谢谢!线程池能够对线程进行有效的管理, 复用和数量上限的限制, 如果你需要创建多个线程来执行多个异步任务, 那么使用线程池显然要比频...

2017-03-09 17:05:00

阅读数 358

评论数 0

Cache与Buffer

http://blog.csdn.net/caoshuming_500/article/details/7332561 http://blog.csdn.net/dianhuiren/article/details/7543886Cache缓存区,是高速缓存,是位于CPU和主内存之间的容量较小但...

2017-03-08 22:33:13

阅读数 326

评论数 0

大端小端格式详解

http://blog.csdn.net/duyiwuer2009/article/details/7455490http://blog.csdn.net/zhaoshuzhaoshu/article/details/37600857/1. 什么是大端,什么是小端:所谓的大端模式,是指数据的低位保...

2017-03-08 21:43:44

阅读数 420

评论数 0

Parquet与ORC:高性能列式存储格式

http://blog.csdn.net/yu616568/article/details/51868447 背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop...

2017-03-08 21:09:49

阅读数 1139

评论数 0

解析大数据基准测试——TPC-H or TPC-DS

http://blog.csdn.net/dongzhumao86/article/details/45841583 随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据具有3V特性,即Volume(海量...

2017-03-08 15:31:56

阅读数 888

评论数 0

Hive 窗口函数、分析函数

http://www.cnblogs.com/skyEva/p/5730531.html Hive 窗口函数、分析函数 1 分析函数:用于等级、百分点、n分片等 Nti...

2017-03-08 15:16:59

阅读数 562

评论数 0

倒排索引原理和实现

倒排索引原理和实现 关于倒排索引 搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档。怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词——文档矩阵模型,通过这个模型我们可以很方便知道某篇文档...

2017-03-06 22:17:47

阅读数 28314

评论数 2

提示
确定要删除当前文章?
取消 删除