大数据
文章平均质量分 79
成功人士从不写博客
这个作者很懒,什么都没留下…
展开
-
MySQL实战45讲总结
MySQL45讲1. 一条SQL查询语句怎么运行的但是大多数情况下我会建议你不要使用查询缓存,为什么呢?因为查询缓存往往弊大于利。查询缓存的失效非常频繁,只要有对一个表的更新,这个表上所有的查询缓存都会被清空。2. 一条SQL更新语句怎么运行MySQL 里经常说到的 WAL 技术,WAL 的全称是 Write-Ahead Logging,它的关键点就是先写日志,再写磁盘,也就是先写粉板,等不忙的时候再写账本。redo log(粉板)当有一条记录需要更新的时候,InnoDB 引擎就会先把记原创 2021-02-28 15:22:20 · 6836 阅读 · 1 评论 -
从MapReduce到Hive
1.计算框架Hadoop 是一个计算框架,目前大型数据计算框架常用的大致有五种:仅批处理框架:Apache hadoop.仅流处理框架:Apache Storm、Apache Samza.混合框架:Apache Spark、Apache Flink.这其中名气最大、使用最广的当属 Hadoop 和 Spark。虽然两者都被称为大数据框架,但实际层级不同。Hadoop 是一个分布式数...原创 2019-12-05 16:41:56 · 1410 阅读 · 0 评论 -
Spark SQL
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。###为什么要学习Spark SQLHive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark S...原创 2018-04-28 08:52:06 · 656 阅读 · 2 评论 -
Scala高阶函数
匿名函数而在大量的spark中大都用的是匿名函数(不为函数命名),然后将其复制个一个变量。如: 匿名函数格式:Val 变量名 = (参数:类型) => 函数体高阶函数函数参数1.将函数做参数传给另一个函数如: 首先我们定义了一个函数BigData,这个函数有两个参数,第一个参数是一个函数,函数名是func,他有一个String类型的参...原创 2018-04-28 08:57:37 · 484 阅读 · 0 评论 -
Scala简述
1.安装 首先进入scala-ide 主页,了解最新情形。注意scala-ide并不是一个独立的ide,它只是eclipse的一个插件。 进入下载界面,获取最新下载链接–“http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site ”,特别注意该下载链接所适用的JDK和eclipse等版本,比如上述下载...原创 2018-04-28 09:04:16 · 274 阅读 · 0 评论 -
Scala Actor简述
概念 Scala中的Actor能够实现并行编程的强大功能,它是基于事件模型的并发机制,Scala是运用消息(message)的发送、接收来实现多线程的。使用Scala能够更容易地实现多线程应用的开发。actor方法执行顺序1.首先调用start()方法启动Actor 2.调用start()方法后其act()方法会被执行 3.向Actor发送消息发送消息的方式...原创 2018-04-28 09:08:35 · 346 阅读 · 0 评论 -
Eclispe中scala maven-scala插件的安装
maven-scala插件的安装scala IDE eclipse的插件在https://blog.csdn.net/liyifan687/article/details/80115771中已安装过。这里需要安装一个 m2e-scala1.安装m2e-scala网址http://alchim31.free.fr/m2e-scala/update-site/ ?问题 第一次安装以上三个只安装了...原创 2018-04-28 09:14:41 · 2376 阅读 · 0 评论 -
RDD-Partitioner
概要Spark RDD主要由Dependency、Partition、Partitioner组成,这篇介绍最后一部分Partitioner。Partition记录了数据split的逻辑,Dependency记录的是transformation操作过程中Partition的演化,Partitioner是shuffle过程中key重分区时的策略,即计算key决定k-v属于哪个分区。Partitione...转载 2018-04-28 09:42:34 · 458 阅读 · 0 评论 -
RDD-Dependency讲解
概要上一篇我们介绍了代表RDD组成的(Dependency、Partition、Partitioner)之一的Partition,这篇接着介绍Dependency。Partition记录的是数据split的逻辑,Dependency记录的是transformation操作过程中Partition的演化,即这个Partition从哪来到哪去的过程,以及通过Dependency的类型判断如何处理数...转载 2018-05-03 08:21:23 · 270 阅读 · 0 评论 -
JAVA与Redis的集合——spring-data-redis与JedisPool的区别、使用ShardedJedisPool与spring集成的实现及一致性哈希分析
首先注意:redis不支持直接将java对象存储到数据库中,需将java对象序列化得到字节数组,然后将字节数组存入redis中,需要数据时就从redis数据库中取出字节数组,再经反序列化将自己数组转换成对象使用. 一、Redis与spring的整合一般分为spring-data-redis整合和JedisPool...转载 2018-04-29 17:11:15 · 1615 阅读 · 0 评论 -
Spark操作Mysql和Hive
1.MysqlJDBCSpark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。从MySQL中加载数据(Spark Shell方式)1.启动Spark Shell,必须指定mysql连接驱动jar包/usr/local/spark-1.5.2-bin-hadoop2....原创 2018-04-28 08:42:47 · 2112 阅读 · 0 评论 -
RDD-Partion简述
Spark RDD主要由Dependency、Partition、Partitioner组成Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个Partition,Partition的数量决定了task的数量,影响着程序的并行度,所以理解Partition是了解spark背后运行原理的第一步。...转载 2018-04-28 08:34:52 · 303 阅读 · 0 评论 -
MapReduce过程图解
1. 一个mr程序启动的时候,最先启动的是MRAppMaster,MRAppMaster启动后根据本次job的描述信息,计算出需要的maptask实例数量,然后向集群申请机器启动相应数量的maptask进程2.maptask进程启动之后,根据给定的数据切片范围进行数据处理,主体流程为:a) 利用客户指定的inputformat来获取RecordReader读取数据,形成输入KV对b) 将输入KV对...原创 2018-04-27 08:42:35 · 667 阅读 · 0 评论 -
Hadoop的安装和入门使用
Hadoop的安装方式有三种,分别是单机模式,伪分布式模式,分布式模式。以下转载至厦大林子雨老师所著图书,当初学习hadoop入门环境搭建部分帮助很多,在此作为推荐。如有侵权请告知删除。单机模式:单机模式:Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。伪分布式模式:Hadoop 可以在单节点上以伪分布式的方式...转载 2018-04-27 09:00:42 · 729 阅读 · 0 评论 -
hadoop-hbase-storm相关命令和端口
启动hdfs和yarn: start-all.sh启动zookeeper(各个节点都要单独启动) 安装目录下 bin/zkserver.sh start stop 关闭hive 安装目录下 bin/hive exit;退出hbase 启动:安装目录下 bin/start-hbase.sh bin/stop-hbase.sh bin/h...原创 2018-04-27 09:27:56 · 255 阅读 · 0 评论 -
Hive的安装和基础编程
转载自厦门大学林子雨开设的《大数据技术原理与应用》一、安装hive1. 下载并解压hive源程序Hive下载地址注意,上面的dblab:dblab是用户组和用户名,如果你当前使用用户名hadoop登录了Linux系统,则把dblab替换成hadoop。2. 配置环境变量为了方便使用,我们把hive命令加入到环境变量中去,请使用vim编辑器打开.bashrc文件,命令如下:在该文件最前面一行添加如下...转载 2018-04-27 09:34:58 · 1828 阅读 · 2 评论 -
HBase安装和基础编程
转载自厦门大学林子雨编著的《大数据技术原理与应用》一、HBase介绍HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇(column family)。欲了解HBase的官方资讯,请访问[HBase官方网站](http://hbase.apache.org...转载 2018-04-27 10:36:53 · 1858 阅读 · 0 评论 -
Storm的安装与使用
详细安装教程可参看厦大林子雨老师著作:http://dblab.xmu.edu.cn/blog/767/三大计算系统hadoop :离线的复杂计算。spark:离线的快速计算。 storm:流式实时计算。离线复杂计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计...原创 2018-04-27 10:53:28 · 590 阅读 · 0 评论 -
Spark的安装和介绍
安装安装scala解压,配置环境变量 export SCALA_HOME=/usr/local/scala-2.10.6 export PATH=$SCALA_HOME/bin:$PATH source /etc/profile 再分发到各个节点安装spark1.下载解压,修改conf下spark-env.shexport JAVA_HOME=/u...原创 2018-04-28 08:00:03 · 180 阅读 · 0 评论 -
Spark RDD基本介绍
rddRDD(Resilient Distributed Dataset)叫做分布式数据集,Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合. rdd是spark的灵魂,中文翻译弹性分布式数据集,一个rdd代表一个可以被分区的只读数据集。rdd内部可以有许多分区(partitions),每个分区又拥有大量的记录(records)。RDD分类窄...原创 2018-04-28 08:06:46 · 272 阅读 · 0 评论