自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(5)
  • 资源 (5)
  • 收藏
  • 关注

原创 深入理解Spark 2.1 Core (二):DAG调度器的原理与源码分析

上一篇《深入理解Spark 2.0 (一):RDD实现及源码分析 》的5.2 Spark任务调度器我们省略过去了,这篇我们就来讲讲Spark的调度器。概述上一篇《深入理解Spark(一):RDD实现及源码分析 》提到: 定义RDD之后,程序员就可以在动作(注:即action操作)中使用RDD了。动作是向应用程序返回值,或向存储系统导出数据的那些操作,例如,count(返回RDD...

2016-12-28 22:11:02 11076 3

原创 深入理解Spark 2.1 Core (一):RDD的原理与源码分析

本文链接:http://blog.csdn.net/u011239443/article/details/53894611 该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译,我是基于博文http://sh...

2016-12-27 12:57:57 22287 3

原创 Java NIO 实现 EchoServer EchoClient

阻塞模式EchoServer采用阻塞模式,用线程池中的工作线程处理每个客户连接。 EchoClient也采用阻塞模式,单线程。serverpackage com.test.socket.nio.echo;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java

2016-12-21 18:50:49 2834 1

原创 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 from CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像。在以前,大多媒体会...

2016-12-19 16:17:06 24564 26

原创 Scala——Traits

类似于Java中的接口,trait被用于通过所支持的方法特例化来定义对象。如Java 8中一样,Scala允许trait被部分实现。和class相比,trait可以没有构造函数。如:trait Similarity { def isSimilar(x: Any): Boolean def isNotSimilar(x: Any): Boolean = !isSimilar(x)}这个tra

2016-12-06 13:30:33 994

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除