- 博客(13)
- 资源 (5)
- 收藏
- 关注
原创 《机器学习实战》(十)——k-means、k-means++、二分K-means
原理创建K个点作为起始质点。每次迭代如下: 将各个数据点分配到离它距离最近的质点的簇。全部分配后,用各个簇中的数据点的位置均值来更新质点的位置。直到达到迭代次数,或者所有的数据点所在的簇不再改变。可参阅:http://blog.csdn.net/u011239443/article/details/51707802#t0支持函数Python# 加载数据def loadDataSet(fi
2017-03-30 18:45:23 5781
原创 《机器学习实战(Scala实现)》(四)——朴素贝叶斯
原理关于算法原理可以参阅:http://blog.csdn.net/u011239443/article/details/53735609#t35构建词向量pythondef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['ma
2017-03-29 12:55:47 2140 1
转载 TCP协议中的三次握手和四次挥手(图解)
http://blog.csdn.net/whuslei/article/details/6667471/建立TCP需要三次握手才能建立,而断开连接则需要四次握手。整个过程如下图所示:先来看看如何建立连接的。【更新于2017.01.04 】该部分内容配图有误,请大家见谅,正确的配图如下,错误配图也不删了,大家可以比较下,对比理解效果更好。这么久才来更新,抱歉!!错误配图如下:首先Client端发送
2017-03-22 14:45:38 642
原创 《机器学习实战(Scala实现)》(二)——k-邻近算法
算法流程1.计算中的set中每一个点与Xt的距离。 2.按距离增序排。 3.选择距离最小的前k个点。 4.确定前k个点所在的label的出现频率。 5.返回频率最高的label作为测试的结果。实现python# -*- coding: utf-8 -*- '''Created on 2017年3月18日@author: soso'''from numpy import *impo
2017-03-18 14:41:08 6362
转载 RDD,DataFrame与DataSet
http://blog.csdn.net/wo334499/article/details/51689549 http://www.jianshu.com/p/c0181667daa0RDD介绍可以参阅 : http://blog.csdn.net/u011239443/article/details/53894611优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类
2017-03-16 16:27:12 599
转载 Java GC基本算法
1、JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,结构图如下所示:1)堆所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代,新生代又被进一步划分为Eden和Survivor区,Survivor由FromSpace和ToSpace组成,结构图如下所示:新生代。新建的对象都是用新生代分配内存,Eden空间不足的时
2017-03-13 14:02:50 415
转载 Java 线程池 ThreadPoolExecutor 源码分析
转载请注明本文出自 clevergump 的博客:http://blog.csdn.net/clevergump/article/details/50688008, 谢谢!线程池能够对线程进行有效的管理, 复用和数量上限的限制, 如果你需要创建多个线程来执行多个异步任务, 那么使用线程池显然要比频繁地 new Thread().start() 这种方式要好.Java 中的线程池是用 ThreadPo
2017-03-09 17:05:00 459
转载 Cache与Buffer
http://blog.csdn.net/caoshuming_500/article/details/7332561 http://blog.csdn.net/dianhuiren/article/details/7543886Cache缓存区,是高速缓存,是位于CPU和主内存之间的容量较小但速度很快的存储器,因为CPU的速度远远高于主内存的速度,CPU从内存中读取数据需等待很长的时间,而 C
2017-03-08 22:33:13 443
转载 大端小端格式详解
http://blog.csdn.net/duyiwuer2009/article/details/7455490http://blog.csdn.net/zhaoshuzhaoshu/article/details/37600857/1. 什么是大端,什么是小端:所谓的大端模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;(JVM 通常网络传输 都是大端)所谓的小端模式
2017-03-08 21:43:44 720
转载 Parquet与ORC:高性能列式存储格式
http://blog.csdn.net/yu616568/article/details/51868447 背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、P
2017-03-08 21:09:49 1788
转载 解析大数据基准测试——TPC-H or TPC-DS
http://blog.csdn.net/dongzhumao86/article/details/45841583随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多样)[1]。TPC联合主席、Cisco高级工程师Ragh
2017-03-08 15:31:56 2435
转载 Hive 窗口函数、分析函数
http://www.cnblogs.com/skyEva/p/5730531.html Hive 窗口函数、分析函数 1 分析函数:用于等级、百分点、n分片等Ntile 是Hive很强大的一个分析函数。可以看成是:它把有序的数据集合 平均分配 到 指定的数量(num
2017-03-08 15:16:59 975
SMP2020微博情绪分类技术评测数据集
2022-12-29
jblas-1.2.4-SNAPSHOT
2016-06-26
Spark机器学习文本处理数据集
2016-06-20
Spark机器学习推荐模型数据集
2016-06-18
Spark机器学习回归模型数据集
2016-06-15
Spark机器学习分类模型的数据集
2016-06-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人