Spark
文章平均质量分 85
yqtaowhu
硕士研究生,关注方向:C++,Linux,数据挖掘,机器学习,计算机视觉
Github:https://github.com/yqtaowhu
展开
-
Spark 分析Apache日志
声明:没博客内容由本人经过实验楼整理而来内容描述在给定的日志文件是一个标准的Apache2 程序产生的access.log文件,根据业务需求,我们需要分析得到下面几方面的数据: 统计每日PV和独立IP 统计每种不同的HTTP状态对应的访问数 统计不同独立IP的访问量 统计不同页面的访问量 Apache日志格式首先下载apache日志文件 wget http://labfile.oss.aliyun原创 2016-11-28 21:32:18 · 3045 阅读 · 0 评论 -
Spark入门及安装部署
1. Spark概念 Spark是UC Berkeley AMP lab开发的一个集群计算的框架,类似于Hadoop,但有很多的区别(详细见3.4)。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代的MapReduce算法场景中,可以获得更好的性能提升。例如一次排序测试中,对100TB数据进行排序,Spark比Hadoop快三倍,并且只需要十分之一的机原创 2016-11-18 18:47:03 · 3640 阅读 · 1 评论 -
莎士比亚文集词频统计并行化算法
声明:本博客内容由本人经过实验楼实验得来。题目描述在给定的莎士比亚文集上(多个文件),根据规定的停词表,统计出现频率最高的 100 个单词。所谓的停词表,即在词表中的词语并不统计他的频率。莎士比亚文集中具有多个章节,因此需要用到并行化的方法,这里使用Spark进行处理。数据下载# 莎士比亚文集: wget http://labfile.oss.aliyuncs.com/courses/456/sha原创 2016-11-21 21:40:12 · 2870 阅读 · 1 评论 -
Spark学习-RDD编程基础
1. RDD基础概念\quadSpark上开发的应用程序都是由一个driver programe构成,这个所谓的驱动程序在Spark集群通过跑main函数来执行各种并行操作。集群上的所有节点进行并行计算需要共同访问一个分区元素的集合,这就是RDD(RDD resilient distributed dataset)弹性分布式数据集。RDD可以存储在内存或磁盘中,具有一定的容错性,可以在节点宕机重启后原创 2017-03-09 22:29:14 · 3429 阅读 · 0 评论 -
基于MLlib的机器学习
1. 简介\quadMLlib 是Spark 中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的。MLlib 中包含许多机器学习算法,可以在Spark 支持的所有编程语言中使用,由于Spark基于内存计算模型的优势,非常适合机器学习中出现的多次迭代,避免了操作磁盘和网络的性能损耗。Spark 官网展示的 MLlib 与Hadoop性能对比图就非常显著。所以Spark比Hadoop的Map原创 2017-03-13 20:25:04 · 5156 阅读 · 1 评论