2018年02月_ouprince

转载 k-means 聚类算法的缺陷

k-means算法是一种典型的基于距离的算法，它以距离作为评价相似度的指标。两个对象的距离越近，则相似度也就越大。其算法步骤如下：1.随机选取K个聚类中心点。基于这k个中心点计算每个对象到中心点的距离，并将对象划分成其离最短的那个中心点的那一个类别，也就是第一轮迭代就根据选取的中心点将对象划分成了k类。2.对每一个类重新计算中心点，也就是中心点根据上一轮迭代的类别进行重算，得到新的k个中...

2018-02-27 14:26:34 17326

转载一起学Spark（14）-- 其他简介

1.Apache Zookeeper：Apache Zookeeper 是一个分布式，无主服务器的协调服务。假设在分布式环境中有一个无主服务，那就表明没有协调中心，而如果没有协调中心，则集群中每一个zookeeper节点都可以被启动。假设Zookeeper 服务可用，Spark master 就能依赖它确保在给定的任意时刻，只有一个master控制集群。因此当前master可以在任意给定节...

2018-02-27 11:16:19 488

转载一起学Spark（13） -- 数据 Shuffle 与分区器

许多转换操作需要在集群中shuffle数据，包括join，各种ByKey等。所有这些操作都很消耗性能，因为它们可能需要对整个数据集进行shuffle，排序以及重新分区。但是有一个小技巧可以提高性能，即预分区。如果rdd已分区，就能避免数据shuffle，因为假设rdd已分区，那么特定的键值就会在同一个分区内，因此能在本机进行处理，这种方式就不需要通过网络做数据shuffle了。val p...

2018-02-26 18:46:18 575

转载 kmeans 文本聚类方法简介

k-均值算法是一个很常见的算法，它的基本思想是：通过迭代寻找k个聚类的一个划分方案，使得用这K个聚类的均值来代表相应各个样本时所得的总体误差最小。算法步骤：1.生成索引文件将分类的文本以句子id 句子内容（已分词处理）作为用来生成索引文件的语料： java -cp $JAR lucene.text.FileIndexing $baseDir/test $baseDi...

2018-02-09 18:36:34 1040

转载一起学spark（12）-- 关于RDD和DataFrame 的缓存

（1）Rdd持久化当调用RDD的persist()或者cache()方法时，这个RDD的分区会被存储到缓存区中，Spark会根据spark.storage.memoryFraction 限制用来缓存的内存占整个JVM堆空间的比例大小，如果超出限制，旧的分区数据会被移出内存。 Spark默认的 cache() 操作会以MEMORY_ONLY 的存储等级持久化数据，意味着缓存新的RD...

2018-02-07 18:05:30 8346 2

原创一起学spark（11） -- Spark SQL 和 DataFrame 操作

Spark SQL是在Spark 1.0 中新加入的spark 组件，并快速成为了Spark中教受欢迎的操作结构化和半结构化数据的方式。DataFrame 是由 ROW对象组成的rdd，每个ROW对象表示一条记录，类似我们的表结构。（1）采用spark sql 执行数据查询和插入from pyspark import SparkContext,SparkConffrom pyspark...

2018-02-06 19:19:57 506 2

转载 Lucene 简单入门

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。...

2018-02-05 17:00:38 558

转载一起学spark（10） -- spark SQL中的结构化数据之一 : Apache Hive

Apache Hive 是Hadoop 上的一种常见的结构化数据源，Hive 可以在HDFS 内或者其他存储系统上存储多种格式的表，这些格式从普通文本到列式存储格式，应有尽有。Spark SQL可以读取 Hive 支持的任何表。要把 spark sql 连接到已有的 Hive 上，你需要提供hive 的配置文件，需要将hive-site.xml 文件复制到 Spark 的./conf/目录下，...

2018-02-02 18:15:35 323

转载一起学spark（9） -- 累加器和广播变量

通常在向spark传递函数时，可以使用驱动器程序中的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。累加器：累加器提供了将工作节点中的词聚合到驱动器程序中的简单语法。eg：统计空行file = sc.textFile(input_file)#创建Accumulator[int] 并初始化为0blankLines = sc....

2018-02-02 17:01:39 241

转载一起学spark（8） -- 针对两个pair rdd 的连接操作以及pair RDD 的行动操作

针对两个pair RDD的连接转化操作（rdd = {(1,2),(3,4),(3,6)} other = {(3,9)}）rdd.subtractByKey(other) #删掉rdd中与other rdd 中的键相同的元素 {(1,2)}rdd.join(other) #对两个rdd内连接 {(3,(4,9)),(3,(6,9))}rdd.leftO...

2018-02-02 16:08:20 1318

转载一起学spark（7） -- 键值对RDD（pair rdd）

键值对RDD是Spark中许多操作所需要的常见数据类型。通常用来进行聚合运算。键值对即所谓的 key-value 形式的数据，比如 ('name','Lucy') name 是 key , Lucy 是value。创建pair rdd 通常是用mappairs = lines.map(lambda x:(x.split()[0],x)) #创建pair rdd ，key 为 x.s...

2018-02-02 14:54:14 523

转载一起学spark（6）-- 仅在数值RDD上的统计操作

有一些行动操作仅仅适用于数值型的RDD,其他类型是不支持的，如以下代码：count() rdd的元素个数mean() 元素平均值sum() 总和max() ...

2018-02-02 14:17:03 2354

ouprince