spark
一步_笑
这个作者很懒,什么都没留下…
展开
-
spark 初学(一) - 原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。优点:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍使用情景:1 数据量大 2 计算复杂spark的...转载 2018-05-17 14:24:41 · 364 阅读 · 0 评论 -
Saprk初学(二)- 应用-日志解析
应用环境,项目需要解析日志,通过flume读取不同服务器上的日志并进行初步的过滤(可通过配置完成),由masterFlume将读取到的日志汇总到硬盘的某个文件中,有spark解析日志,并进行汇总。将汇总结果保存到mongo数据库。...原创 2018-05-22 13:59:38 · 280 阅读 · 0 评论 -
Spark初学(三)- StreamingContext - 日志解析
spark进行日志解析有两种方式:一、flume(日志采集)将采集到的日志保存到硬盘的日志文件中,spark每隔一段时间汇总分析一次(我们在用的是这种方式,每一个小时通过自定义的sink生成一个日志文件,spark的汇总每隔一个小时被调用一次,汇总上个小时采集的日志)。二、flume将采集到的日志保存在内存中,spark通过流每隔几秒获取一次内存中数据,汇总分析保存。第二种实现: SparkCon...原创 2018-05-22 15:52:46 · 2301 阅读 · 0 评论 -
spark初学(四)- 连接数据库汇总
连接的数据库为mongo:private SparkSession sparkSession() { StringBuffer mongoUrl = new StringBuffer("mongodb://" + username + ":" + password + "@"); String[] url = urls.split(","); for...原创 2018-05-22 16:00:29 · 366 阅读 · 0 评论