2016年11月_小爷毛毛（卓寿杰）

12月 11月 10月 09月 08月 07月 06月

转载 Tachyon（现名：Alluxio）：Spark生态系统中的分布式内存文件系统

原文： http://www.csdn.net/article/2015-06-25/2825056 Tachyon是Spark生态系统内快速崛起的一个新项目。本质上， Tachyon是个分布式的内存文件系统，它在减轻Spark内存压力的同时，也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来，使Spark可以更专

2016-11-29 16:30:18 1010

转载提高机器学习模型准确率的八大方法

想要提高模型的性能有时会是一件难度不小的事情。如果你也遇到过类似的情况，相信一定会认同我这一看法。在一一尝试毕生所学的对策和算法之后，依然没能够提高模型的准确率，这时，一种陷入困境的无助感就会涌上心头。事实上，百分之九十的数据科学家就是在这一阶段选择了放弃。但是，好戏这才开始！正是这一点划清了平凡的数据科学家与非凡的数据科学家的界限。你是不是也梦想着成为一名卓越的数据科学家呢？如果是的话，你就需要有

2016-11-28 15:25:43 16419

转载 MapReduce Shuffle原理与 Spark Shuffle原理

MapReduce Shuffle原理与 Spark Shuffle原理 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知

2016-11-27 17:51:28 2267

原创移动电影售票系统案例分析

面向对象的分析（Object Oriented Analysis，OOA）强调的是在问题域内发现和描述对象（或概念）。如，在图书馆信息系统中，包含书籍、书库、借阅者等概念。面向对象的设计（ Object Oriented Design ，OOD）强调的是定义软件对象以它们是如何协作以实现需求。在图书馆信息系统中，“书”这个软件对象，可以有“title”属性和“getChapter”方法。LSP：Liskov替换原则OCP：开放-封闭原则SRP：单一职责原则ISP：接口隔离原则。

2016-11-14 18:41:27 12865 3

原创 Java重要知识点（继承、多态、接口，异常，工具，测试）

继承、多态多态调用的顺序重写 hashcode equals comparetopublic class Employee{ private String name; private doub1e salary; private Date hireDay; public Employee(String n,doub1e s,int year,int month,int

2016-11-13 17:27:39 962

原创 hadoop io 源码阅读

序列化我们先来看下hadoop官网上给的MapReduce统计词频的示例：import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache

2016-11-09 21:41:25 1104

转载 Maven依赖中的scope详解

http://blog.csdn.net/kimylrong/article/details/50353161 Maven的一个哲学是惯例优于配置(Convention Over Configuration), Maven默认的依赖配置项中，scope的默认值是compile，项目中经常傻傻的分不清，直接默认了。今天梳理一下maven的scope。scope的分类compile默认就

2016-11-02 10:14:23 1008

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供，原始数据源于新浪微博，由微热点大数据研究院提供，数据集分为两部分。第一部分为通用微博数据集，该数据集内的微博内容是随机获取到微博内容，不针对特定的话题，覆盖的范围较广。第二部分为疫情微博数据集，该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博，其内容与新冠疫情相关。因此，本次评测训练集包含上述两类数据：通用微博训练数据和疫情微博训练数据，相对应的，测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。每条微博被标注为以下六个类别之一：neutral（无情绪）、happy（积极）、angry（愤怒）、sad（悲伤）、fear（恐惧）、surprise（惊奇）。通用微博训练数据集包括27,768条微博，验证集包含2,000条微博，测试数据集包含5,000条微博。疫情微博训练数据集包括8,606条微博，验证集包含2,000条微博，测试数据集包含3,000

2022-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 Tachyon（现名：Alluxio）：Spark生态系统中的分布式内存文件系统

转载提高机器学习模型准确率的八大方法

转载 MapReduce Shuffle原理与 Spark Shuffle原理

原创移动电影售票系统案例分析

原创 Java重要知识点（继承、多态、接口，异常，工具，测试）

原创 hadoop io 源码阅读

转载 Maven依赖中的scope详解

SMP2020微博情绪分类技术评测数据集

jblas-1.2.4-SNAPSHOT

Spark机器学习文本处理数据集

Spark机器学习推荐模型数据集

Spark机器学习回归模型数据集

Spark机器学习分类模型的数据集

空空如也

转载 Tachyon（现名：Alluxio）：Spark生态系统中的分布式内存文件系统

转载 提高机器学习模型准确率的八大方法

转载 MapReduce Shuffle原理 与 Spark Shuffle原理

原创 移动电影售票系统案例分析

原创 Java重要知识点（继承、多态、接口，异常，工具，测试）

原创 hadoop io 源码阅读

转载 Maven依赖中的scope详解

SMP2020微博情绪分类技术评测数据集

jblas-1.2.4-SNAPSHOT

Spark机器学习文本处理数据集

Spark机器学习推荐模型数据集

Spark机器学习回归模型数据集

Spark机器学习分类模型的数据集

空空如也

转载提高机器学习模型准确率的八大方法

转载 MapReduce Shuffle原理与 Spark Shuffle原理

原创移动电影售票系统案例分析