2017年03月_小爷毛毛（卓寿杰）

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创《机器学习实战》（十）——k-means、k-means++、二分K-means

原理创建K个点作为起始质点。每次迭代如下：将各个数据点分配到离它距离最近的质点的簇。全部分配后，用各个簇中的数据点的位置均值来更新质点的位置。直到达到迭代次数，或者所有的数据点所在的簇不再改变。可参阅：http://blog.csdn.net/u011239443/article/details/51707802#t0支持函数Python# 加载数据def loadDataSet(fi

2017-03-30 18:45:23 5781

原创《机器学习实战（Scala实现）》（四）——朴素贝叶斯

原理关于算法原理可以参阅：http://blog.csdn.net/u011239443/article/details/53735609#t35构建词向量pythondef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['ma

2017-03-29 12:55:47 2140 1

原创《机器学习实战（Scala实现）》（三）——决策树

【代码】《机器学习实战（Scala实现）》（三）——决策树。

2017-03-26 18:19:45 5105 1

http://blog.csdn.net/whuslei/article/details/6667471/建立TCP需要三次握手才能建立，而断开连接则需要四次握手。整个过程如下图所示：先来看看如何建立连接的。【更新于2017.01.04 】该部分内容配图有误，请大家见谅，正确的配图如下，错误配图也不删了，大家可以比较下，对比理解效果更好。这么久才来更新，抱歉！！错误配图如下：首先Client端发送

2017-03-22 14:45:38 642

原创《机器学习实战（Scala实现）》（二）——k-邻近算法

算法流程1.计算中的set中每一个点与Xt的距离。 2.按距离增序排。 3.选择距离最小的前k个点。 4.确定前k个点所在的label的出现频率。 5.返回频率最高的label作为测试的结果。实现python# -*- coding: utf-8 -*- '''Created on 2017年3月18日@author: soso'''from numpy import *impo

2017-03-18 14:41:08 6362

转载 RDD，DataFrame与DataSet

http://blog.csdn.net/wo334499/article/details/51689549 http://www.jianshu.com/p/c0181667daa0RDD介绍可以参阅： http://blog.csdn.net/u011239443/article/details/53894611优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类

2017-03-16 16:27:12 599

转载 Java GC基本算法

1、JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成，结构图如下所示：1)堆所有通过new创建的对象的内存都在堆中分配，其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代，新生代又被进一步划分为Eden和Survivor区，Survivor由FromSpace和ToSpace组成，结构图如下所示：新生代。新建的对象都是用新生代分配内存，Eden空间不足的时

2017-03-13 14:02:50 415

转载 Java 线程池 ThreadPoolExecutor 源码分析

转载请注明本文出自 clevergump 的博客：http://blog.csdn.net/clevergump/article/details/50688008, 谢谢!线程池能够对线程进行有效的管理, 复用和数量上限的限制, 如果你需要创建多个线程来执行多个异步任务, 那么使用线程池显然要比频繁地 new Thread().start() 这种方式要好.Java 中的线程池是用 ThreadPo

2017-03-09 17:05:00 459

转载 Cache与Buffer

http://blog.csdn.net/caoshuming_500/article/details/7332561 http://blog.csdn.net/dianhuiren/article/details/7543886Cache缓存区，是高速缓存，是位于CPU和主内存之间的容量较小但速度很快的存储器，因为CPU的速度远远高于主内存的速度，CPU从内存中读取数据需等待很长的时间，而 C

2017-03-08 22:33:13 443

转载大端小端格式详解

http://blog.csdn.net/duyiwuer2009/article/details/7455490http://blog.csdn.net/zhaoshuzhaoshu/article/details/37600857/1. 什么是大端,什么是小端:所谓的大端模式，是指数据的低位保存在内存的高地址中，而数据的高位，保存在内存的低地址中；（JVM 通常网络传输都是大端）所谓的小端模式

2017-03-08 21:43:44 720

转载 Parquet与ORC：高性能列式存储格式

http://blog.csdn.net/yu616568/article/details/51868447 背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、P

2017-03-08 21:09:49 1788

转载解析大数据基准测试——TPC-H or TPC-DS

http://blog.csdn.net/dongzhumao86/article/details/45841583随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化，大数据管理技术得到了突飞猛进的发展。一般来说，大数据具有3V特性，即Volume（海量）、Velocity（高速）和Variety（多样）[1]。TPC联合主席、Cisco高级工程师Ragh

2017-03-08 15:31:56 2435

转载 Hive 窗口函数、分析函数

http://www.cnblogs.com/skyEva/p/5730531.html Hive 窗口函数、分析函数 1 分析函数：用于等级、百分点、n分片等Ntile 是Hive很强大的一个分析函数。可以看成是：它把有序的数据集合平均分配到指定的数量（num

2017-03-08 15:16:59 975

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供，原始数据源于新浪微博，由微热点大数据研究院提供，数据集分为两部分。第一部分为通用微博数据集，该数据集内的微博内容是随机获取到微博内容，不针对特定的话题，覆盖的范围较广。第二部分为疫情微博数据集，该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博，其内容与新冠疫情相关。因此，本次评测训练集包含上述两类数据：通用微博训练数据和疫情微博训练数据，相对应的，测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。每条微博被标注为以下六个类别之一：neutral（无情绪）、happy（积极）、angry（愤怒）、sad（悲伤）、fear（恐惧）、surprise（惊奇）。通用微博训练数据集包括27,768条微博，验证集包含2,000条微博，测试数据集包含5,000条微博。疫情微博训练数据集包括8,606条微博，验证集包含2,000条微博，测试数据集包含3,000

2022-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人