大数据学习
文章平均质量分 78
本专栏针对大数据方面的技术的分享,比如Apach Spark,Apach Hadoop
链巨人
这个作者很懒,什么都没留下…
展开
-
教程,使用YCSB测试MYSQL数据库,获取千万条测试后的数据
Yahoo! Cloud Serving Benchmark (YCSB)是一个数据库特别是nosql数据库性能测试的benchmark。在GitHub中有3.9千个star和1.9千个forks。本文讲解如何使用YCSB测试MYSQL数据库的性能。本人最终的结果是获取测试之后保存在MYSQL中的数据,需要10000000条记录。这个过程包含性能测试的步骤。系统:Windows 10; MYSQL5.7安装MYSQL数据库,(测试能够登录进去)。创建库和table。根据这个链接 https://g原创 2021-12-14 16:18:15 · 3227 阅读 · 0 评论 -
Apache Spark 介绍的演讲ppt (slice),全英文
这里是本人制作的Apache Spark 介绍的演讲ppt,全英文。这里粘贴部分截图,具体可到相应的链接下载ppt文件,ppt文件中有动画:下载地址:https://download.csdn.net/download/liangyihuai/13043876谢谢...原创 2020-10-25 13:36:05 · 1098 阅读 · 0 评论 -
Stream Processing:Apache Flink快照(snapshot)原理
本文将要讲解的是Apache Flink的分布式流处理的轻量级异步的快照的原理。网上已经有几篇相关的博文,而本文的不同之处在于,它不是论文的纯粹翻译(论文地址),而是用自己的语言结合自己的理解对其原理的阐述。本文将同下面几个方面讲解:什么是快照?为什么需要快照?跟其他系统的快照相比,Apache Flink快照的原理有哪些优点?Apache Flink的快照原理是什么?1. 什么是快...原创 2019-01-07 20:29:57 · 2857 阅读 · 0 评论 -
Stream Processing: Apache Kafka的Exactly-once的定义 原理和实现
2018年,Apache Kafka以一种特殊的设计和方法实现了强语义的exactly-once和事务性。热泪盈眶啊!这篇文章将讲解kafka中exactly-once和事务操作的原理,具体为(1)exactly-once在kafka中的定义。(2)数据生产者的幂等操作和kafka的事务性支持。(3)exactly-once的流处理。1. 什么是恰好一次exactly-onceexact...原创 2018-10-03 15:17:27 · 4773 阅读 · 1 评论 -
Stream Processing: S4系统模型分析和关键源码读解
S4(Simple Scalable Stream System) 流数据处理系统是Yahoo!公司提出的,在2011年的时候成为Apache软件基金下的一个孵化项目,可惜的是在2014年的时候该孵化项目“退休”了,具体原因未知!!从这里可以了解它当前的状态信息:link. 阅读了所发表的论文S4:Distributed Stream Computing Platform之后,发现该系统模型有其独...原创 2018-12-17 09:48:24 · 982 阅读 · 0 评论 -
基于Spark的移动用户主要活动地点的挖掘算法实现以及JavaEE技术整合
本算法基于Spark计算引擎,能够从海量的手机基站数据中挖据出用户的主要活动地点,比如工作地点和居住地点。实现好挖掘算法之后,通过JavaEE来整合上面的算法,让用户能够通过简单的Web UI就能够操作使用该算法,同时为用户提供了可视化数据的功能。原创 2017-06-07 10:36:06 · 2294 阅读 · 7 评论 -
GPS轨迹数据集免费下载资源整理
本文主要是整理了GPS轨迹数据集免费资源库,从这些库中能够免费下载到GPS数据,同时还整理出了这些数据的格式,数据集的简单描述等等。如果你发现更好的相关数据资源,欢迎共享 :)1. GeoLife GPS Trajectories该GPS轨迹数据集出自微软研究GeoLift项目。从2007年四月到2012年八月收集了182个用户的轨迹数据。这些数据包含了一系列以时间为序的点,每一个点包含经纬度、海拔原创 2017-02-27 23:35:32 · 38582 阅读 · 52 评论 -
理解spark闭包
当用户提交了一个用scala语言写的Spark程序,Spark框架会调用哪些组件呢?首先,这个Spark程序就是一个“Application”,程序里面的mian函数就是下图所示的“Driver Program”, 前面已经讲到它的作用,只是,dirver程序的可能运行在客户端,也有可有可能运行在spark集群中,这取决于spark作业提交时参数的选定,比如,yarn-client和yarn-clu原创 2017-02-24 14:27:09 · 5978 阅读 · 7 评论 -
Spark算子汇总和理解(详细)
Spark之所以比Hadoop灵活和强大,其中一个原因是Spark内置了许多有用的算子,也就是方法。通过对这些方法的组合,编程人员就可以写出自己想要的功能。说白了spark编程就是对spark算子的使用。所以熟悉spark算子是spark编程的必修课。这篇文章是本人对于spark算子的汇总和理解。欢迎批评指正 :)groupByKey()描述: Group values with the sa原创 2017-01-12 13:46:50 · 12986 阅读 · 1 评论 -
RDD(Resilient Distributed Datasets 弹性分布式数据集)
RDD是spark计算框架的核心,spark相比于hadoop的优越性在RDD中体现得淋漓尽致。对于RDD的介绍,最好的资料就是那篇专门介绍RDD的论文了,已经有中文翻译。使用scala编写spark应用,给人的感觉就像是在使用scala编写普通的scala程序,感觉spark编程和scala编程完成融合在一起了– RDD就是scala的一个类。 RDD是一个只读不可修改的数据集,在scala原创 2017-02-24 13:39:18 · 2612 阅读 · 0 评论 -
Hadoop生态组件-HIVE学习
安装步骤: 1、安装JDK,配置JAVA_HOME,版本为1.8.0; 2、安装Hadoop(免编译版),版本为2.8.0,配置HADOOP_HOME环境变量。 如果要进行伪分布安装,需要安装ssh已经配置hadoop的配置文件。同时格式化dfs文件系统。 安装参考地址3、安装hive(免编译版pache-hive-1.2.2-bin ),版本为1.2.2,同时配置HIVE_HOME环境变量原创 2017-07-22 23:55:57 · 779 阅读 · 0 评论 -
Spark运行模式(local standalond,yarn-client,yarn-cluster,mesos-client,mesos-cluster)
spark部署在单台机器上面时,可以使用本地模式(Local)运行;当部署在分布式集群上面的时候,可以根据自己的情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式、Spark on Mesos模式。 本地单机模式所有的Spark进程都运行在一台机器或一个虚拟机上面。Spark任务提交的方式为:spark-submit master=l原创 2017-02-23 17:33:09 · 5386 阅读 · 0 评论 -
Scala堆的方式进行Spark topK词频查询(根据value进行TreeMap排序)
本文使用了两种方法进行spark 的top k词频查询,第S一种方法在很多博客中都介绍到了的,但是这种方法有一个问题,那就是在大数据的情况下效率不高,因为它是通过sparkAPI中的top方法来计算的,这个过程会引起一个耗时的“洗牌“过程;第二种方法在其他博客中基本没有看到,使用的是堆的方式,具体为采用immutable.TreeMap这个自带排序功能的类,但是需要我们稍微修改以下,让它能够根据va原创 2017-02-08 13:40:34 · 3594 阅读 · 0 评论 -
Spark组件和术语定义
Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;Driver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准原创 2017-02-24 13:59:10 · 961 阅读 · 0 评论 -
Big Data Ecosystem and Components
Apache Spark Components Spark Core Component - special data structure RDD - basic I/O functionalities - jobs and task scheduling and monitoring - memory management - fault recovery - interacting原创 2016-12-30 09:49:52 · 1065 阅读 · 0 评论