自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ouprince

ouprince

  • 博客(12)
  • 收藏
  • 关注

转载 k-means 聚类算法的缺陷

k-means算法是一种典型的基于距离的算法,它以距离作为评价相似度的指标。两个对象的距离越近,则相似度也就越大。其算法步骤如下:1.随机选取K个聚类中心点。基于这k个中心点计算每个对象到中心点的距离,并将对象划分成其离最短的那个中心点的那一个类别,也就是第一轮迭代就根据选取的中心点将对象划分成了k类。2.对每一个类重新计算中心点,也就是中心点根据上一轮迭代的类别进行重算,得到新的k个中...

2018-02-27 14:26:34 17326

转载 一起学Spark(14)-- 其他简介

1.Apache Zookeeper:Apache Zookeeper 是一个分布式,无主服务器的协调服务。假设在分布式环境中有一个无主服务,那就表明没有协调中心,而如果没有协调中心,则集群中每一个zookeeper节点都可以被启动。假设Zookeeper 服务可用,Spark master 就能依赖它确保在给定的任意时刻,只有一个master控制集群。因此当前master可以在任意给定节...

2018-02-27 11:16:19 488

转载 一起学Spark(13) -- 数据 Shuffle 与分区器

许多转换操作需要在集群中shuffle数据,包括join,各种ByKey等。所有这些操作都很消耗性能,因为它们可能需要对整个数据集进行shuffle,排序以及重新分区。但是有一个小技巧可以提高性能,即预分区。如果rdd已分区,就能避免数据shuffle,因为假设rdd已分区,那么特定的键值就会在同一个分区内,因此能在本机进行处理,这种方式就不需要通过网络做数据shuffle了。val p...

2018-02-26 18:46:18 575

转载 kmeans 文本聚类方法简介

k-均值算法是一个很常见的算法,它的基本思想是:通过迭代寻找k个聚类的一个划分方案,使得用这K个聚类的均值来代表相应各个样本时所得的总体误差最小。算法步骤:1.生成索引文件 将分类的文本以句子id 句子内容(已分词处理) 作为用来生成索引文件的语料: java -cp $JAR lucene.text.FileIndexing $baseDir/test $baseDi...

2018-02-09 18:36:34 1040

转载 一起学spark(12)-- 关于RDD和DataFrame 的缓存

(1)Rdd持久化 当调用RDD的persist()或者cache()方法时,这个RDD的分区会被存储到缓存区中,Spark会根据spark.storage.memoryFraction 限制用来缓存的内存占整个JVM堆空间的比例大小,如果超出限制,旧的分区数据会被移出内存。 Spark默认的 cache() 操作会以MEMORY_ONLY 的存储等级持久化数据,意味着缓存新的RD...

2018-02-07 18:05:30 8346 2

原创 一起学spark(11) -- Spark SQL 和 DataFrame 操作

Spark SQL是在Spark 1.0 中新加入的spark 组件,并快速成为了Spark中教受欢迎的操作结构化和半结构化数据的方式。DataFrame 是由 ROW对象组成的rdd,每个ROW对象表示一条记录,类似我们的表结构。(1)采用spark sql 执行数据查询和插入from pyspark import SparkContext,SparkConffrom pyspark...

2018-02-06 19:19:57 506 2

转载 Lucene 简单入门

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。...

2018-02-05 17:00:38 558

转载 一起学spark(10) -- spark SQL中的结构化数据之一 : Apache Hive

Apache Hive 是Hadoop 上的一种常见的结构化数据源,Hive 可以在HDFS 内或者其他存储系统上存储多种格式的表,这些格式从普通文本到列式存储格式,应有尽有。Spark SQL可以读取 Hive 支持的任何表。要把 spark sql 连接到已有的 Hive 上,你需要提供hive 的配置文件,需要将hive-site.xml 文件复制到 Spark 的./conf/目录下,...

2018-02-02 18:15:35 323

转载 一起学spark(9) -- 累加器和广播变量

通常在向spark传递函数时,可以使用驱动器程序中的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。累加器:累加器提供了将工作节点中的词聚合到驱动器程序中的简单语法。eg:统计空行file = sc.textFile(input_file)#创建Accumulator[int] 并初始化为0blankLines = sc....

2018-02-02 17:01:39 241

转载 一起学spark(8) -- 针对两个pair rdd 的连接操作以及pair RDD 的行动操作

针对两个pair RDD的连接转化操作 (rdd = {(1,2),(3,4),(3,6)} other = {(3,9)})rdd.subtractByKey(other) #删掉rdd中与other rdd 中的键相同的元素 {(1,2)}rdd.join(other) #对两个rdd内连接 {(3,(4,9)),(3,(6,9))}rdd.leftO...

2018-02-02 16:08:20 1318

转载 一起学spark(7) -- 键值对RDD(pair rdd)

键值对RDD是Spark中许多操作所需要的常见数据类型。通常用来进行聚合运算。键值对即所谓的 key-value 形式的数据,比如 ('name','Lucy') name 是 key , Lucy 是value。创建pair rdd 通常是用mappairs = lines.map(lambda x:(x.split()[0],x)) #创建pair rdd ,key 为 x.s...

2018-02-02 14:54:14 523

转载 一起学spark(6)-- 仅在数值RDD上的统计操作

有一些行动操作仅仅适用于数值型的RDD,其他类型是不支持的,如以下代码:count() rdd的元素个数mean() 元素平均值sum() 总和max() ...

2018-02-02 14:17:03 2354

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除