自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Hadoop - reduce任务的数量

reduce任务的数量并非由输入数据的大小决定,而是特别指定的。如有多个reduce任务,则每个map任务都会对其输出进行分区(partition),即为每个reduce任务建一个分区。每个分区由许多键(及其对应值),但每个键对应的 键/值对 记录都在同一个分区中。分区由用户定义的分区函数控制,但通常用默认的分区器(partitioner,也称为“分区函数”)通过哈希函数来分区,这种方法很高效。...

2018-03-13 19:47:09 961

原创 数据库 - 关系的完整性

关系模型中有三类完整性的约束:实体完整性(entity integrity)、参照完整性(referential integrity)和用户定义的完整性(user-defined integrity)。实体完整性和参照完整性是关系模型必须满足的完整性约束条件,被称作是关系的两个不变性,由关系系统自动支持。用户定义的完整性是应用领域需要遵循的约束条件,体现了具体领域中的语义约束。实体完整性规则:若属...

2018-03-11 23:00:03 327

原创 数据库 - 关系数据模型

关系可以有三种类型:基本类型(基本表或者基表)、查询表和视图表基本类型具有以下6条性质:    1.列是同质的(homogeneous),即每一列中的分量是同一类型的数据,来自同一个域;    2.不同的列可出自同一个域,称其中的每一列为一个属性,不同的属性要给予不同的属性名。当两种不同的属性的值取自同一个域时,要赋予属性不同的属性名;    3.列的顺序无所谓;    4.任意两个元组的候选码不...

2018-03-11 22:47:01 377

原创 聚类学习笔记 - 聚类数据的表示

在Mahout中,向量被实现为三个不同的类:    1.DenseVector(密集向量):double型数据,其大小为数据中的特征个数。不管数组的元素值是否为0,数组中的所有元素都被与预先分配了空间。    2.RandomAccessSparseVector(稀疏向量):实现为integer型和double型之间的一个HashMap,只有非零元素被分配空间。    3.SequentialAc...

2018-03-08 11:39:18 404

原创 聚类学习笔记 - 聚类的基本概念

簇:对于一个X-Y平面,簇的中心点(centroid),或平均值(average),为这个簇中所有点的x和y坐标值的平均值对于文档集聚类涉及三件事:    1.一个算法:将项目组织在一起的方法    2.相似性和不相似性的概念:对项目按一定的标准分成不同的堆    3.停止的条件:一个关键节点,项目不能再加入堆,或者这些堆已经具有明显不同的主题TF-IDF(Term Frequency - Inv...

2018-03-07 15:31:52 224

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除