自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(13)
  • 资源 (5)
  • 收藏
  • 关注

原创 《机器学习实战》(十)——k-means、k-means++、二分K-means

原理创建K个点作为起始质点。每次迭代如下: 将各个数据点分配到离它距离最近的质点的簇。全部分配后,用各个簇中的数据点的位置均值来更新质点的位置。直到达到迭代次数,或者所有的数据点所在的簇不再改变。可参阅:http://blog.csdn.net/u011239443/article/details/51707802#t0支持函数Python# 加载数据def loadDataSet(fi

2017-03-30 18:45:23 5781

原创 《机器学习实战(Scala实现)》(四)——朴素贝叶斯

原理关于算法原理可以参阅:http://blog.csdn.net/u011239443/article/details/53735609#t35构建词向量pythondef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['ma

2017-03-29 12:55:47 2140 1

原创 《机器学习实战(Scala实现)》(三)——决策树

【代码】《机器学习实战(Scala实现)》(三)——决策树。

2017-03-26 18:19:45 5105 1

转载 TCP协议中的三次握手和四次挥手(图解)

http://blog.csdn.net/whuslei/article/details/6667471/建立TCP需要三次握手才能建立,而断开连接则需要四次握手。整个过程如下图所示:先来看看如何建立连接的。【更新于2017.01.04 】该部分内容配图有误,请大家见谅,正确的配图如下,错误配图也不删了,大家可以比较下,对比理解效果更好。这么久才来更新,抱歉!!错误配图如下:首先Client端发送

2017-03-22 14:45:38 642

原创 《机器学习实战(Scala实现)》(二)——k-邻近算法

算法流程1.计算中的set中每一个点与Xt的距离。 2.按距离增序排。 3.选择距离最小的前k个点。 4.确定前k个点所在的label的出现频率。 5.返回频率最高的label作为测试的结果。实现python# -*- coding: utf-8 -*- '''Created on 2017年3月18日@author: soso'''from numpy import *impo

2017-03-18 14:41:08 6362

转载 RDD,DataFrame与DataSet

http://blog.csdn.net/wo334499/article/details/51689549 http://www.jianshu.com/p/c0181667daa0RDD介绍可以参阅 : http://blog.csdn.net/u011239443/article/details/53894611优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类

2017-03-16 16:27:12 599

转载 Java GC基本算法

1、JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,结构图如下所示:1)堆所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代,新生代又被进一步划分为Eden和Survivor区,Survivor由FromSpace和ToSpace组成,结构图如下所示:新生代。新建的对象都是用新生代分配内存,Eden空间不足的时

2017-03-13 14:02:50 415

转载 Java 线程池 ThreadPoolExecutor 源码分析

转载请注明本文出自 clevergump 的博客:http://blog.csdn.net/clevergump/article/details/50688008, 谢谢!线程池能够对线程进行有效的管理, 复用和数量上限的限制, 如果你需要创建多个线程来执行多个异步任务, 那么使用线程池显然要比频繁地 new Thread().start() 这种方式要好.Java 中的线程池是用 ThreadPo

2017-03-09 17:05:00 459

转载 Cache与Buffer

http://blog.csdn.net/caoshuming_500/article/details/7332561 http://blog.csdn.net/dianhuiren/article/details/7543886Cache缓存区,是高速缓存,是位于CPU和主内存之间的容量较小但速度很快的存储器,因为CPU的速度远远高于主内存的速度,CPU从内存中读取数据需等待很长的时间,而 C

2017-03-08 22:33:13 443

转载 大端小端格式详解

http://blog.csdn.net/duyiwuer2009/article/details/7455490http://blog.csdn.net/zhaoshuzhaoshu/article/details/37600857/1. 什么是大端,什么是小端:所谓的大端模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;(JVM 通常网络传输 都是大端)所谓的小端模式

2017-03-08 21:43:44 720

转载 Parquet与ORC:高性能列式存储格式

http://blog.csdn.net/yu616568/article/details/51868447 背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、P

2017-03-08 21:09:49 1788

转载 解析大数据基准测试——TPC-H or TPC-DS

http://blog.csdn.net/dongzhumao86/article/details/45841583随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多样)[1]。TPC联合主席、Cisco高级工程师Ragh

2017-03-08 15:31:56 2435

转载 Hive 窗口函数、分析函数

http://www.cnblogs.com/skyEva/p/5730531.html Hive 窗口函数、分析函数 1 分析函数:用于等级、百分点、n分片等Ntile 是Hive很强大的一个分析函数。可以看成是:它把有序的数据集合 平均分配 到 指定的数量(num

2017-03-08 15:16:59 975

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除