墨染繁华执念心悠-CSDN博客

原创 MySQL数据库

一、基本概念1.主键、外键、超键、候选键超键：在关系中能唯一标识元组的属性集称为关系模式的超键。一个属性可以为作为一个超键，多个属性组合在一起也可以作为一个超键。超键包含候选键和主键。候选键：是最小超键，即没有冗余元素的超键。主键：数据库表中对储存数据对象予以唯一和完整标识的数据列或属性的组合。一个数据列只能有一个主键，且主键的取值不能缺失，即不能为空值（Null）。外键：在一个表中存在...

2019-05-29 17:20:22 1835

原创 Hive

什么是Hive1、Hive 由 Facebook 实现并开源2、是基于 Hadoop 的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供 HQL(Hive SQL)查询功能5、底层数据是存储在 HDFS 上6、Hive的本质是将 SQL 语句转换为 MapReduce 任务运行7、使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的...

2019-05-15 10:03:44 1295

Hadoop是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理，其有许多元素构成，以下是其组成元素：1.Hadoop Common：Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。2.HDFS：分布式文件系统，提供高吞吐量的应用程序数据访问，对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删...

2019-05-11 20:52:08 2134

转载 java面试题

第一，谈谈final, finally, finalize的区别。final— 修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能读取，不可修改。被声...

2019-04-19 10:55:07 1183

原创 hive启动命令以及hive介绍(个人总结)

hive启动命令首先启动 zookeeper : bin/zkServer.sh restart启动zookeeper以后查看是否启动成功 : bin/zkServer.sh status在启 NameNode 和 DataNode 守护进程。sbin/start-all.sh...

2019-04-13 10:22:38 16888 2

原创 presto单机版和集群版-介绍+配置以及操作(presto和hive的对+java连接presto,)

为什么要使用presto不便之处Hadoop:存储和计算(mr);mr编程太麻烦Hive:使用sql语句,大大的简化了mr;hive将用户写的sql语句转换成mr代码,递给hadoop缺点:动不动起mr,耗时比较长不建议更新和删除;Hbase:强烈建议更新和删除;查询特别快,(CRUD);hbase有自己的命令和语法;缺点:需要自己再学一套hbase的命令和语法;用hive来弥补了...

2019-04-08 09:31:15 2789

原创大数据考试题

kafka中消费者和消费组有什么区别?他们的作用分别是什么?Kafka消费者是消费组的一部分，当多个消费者形成一个消费组来消费主题时，每个消费者会收到不同分区的消息。 map、mapPartitions、mapValues、flatMap、flatMapValues这几个算子的区别是?map(function)map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。...

2019-04-02 11:32:18 1501

原创 spark-介绍 + 高可用 + Spark-submit + 历史服务器

为什么要使用spark-spark到目前为止没有竞争对手为什么要用到大数据?-文件超级大,一块硬盘放不下,—>hdfs上场;(存储问题)-僵尸数据:(数据存储到一个位置得用起来);(CPU+内存来完成计算);多机一块运算(MapReduce)-mr的开发流程特别繁琐;hive --> sql语句 --> 会转换成 mr 代码 --> hadoop中...

2019-03-31 09:21:19 2699 1

原创 spark-SQL理论

SparkSQL都支持哪些数据源;数据库HiveLucene:全文检索;解决索引模糊匹配like 前面加%不起作用;纯代码编程(java),硬编码Lucene Query Language:ElasticSearch:6.6系统支持SQL语句; 为什么要学习SparkSQL?JavaSE,这一套程序的运行是在内存中;重启以后结果全部丢失;JavaIO:把结果存储到硬盘中;把一...

2019-03-30 13:38:27 1243

原创 flume理论+配置文件+连接HDFS+hive+hbase+拦截器+高可用

数据来源Nginx+tomcat架构图大数据的数据来源从哪ive(数据仓库),–>mysql数据库;数据库的记录存储的是最近的记录(1亿,1个月,1周,1天),之前的数据要先备份到数据仓库,然后要清理掉(mysql),日志:日记历史(先清理日志这个操作很low–不可取);log4j2;两手准备:数据库中的表有做记录;(是最近的数据)日志:格式,我们自己定(文件) ...

2019-03-29 19:23:46 1302 1

原创 Structured Stream--结构流理论知识

流的来源是Spark自带的所有内容(RDD,DataSet,DataFrame)参照网址:http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html流里面的数据是结构化的,列固定,可以把这10秒(这个时间可以指定)钟接收的所有数据当成一张表来使用;结构化流提供快速、可伸缩、容错、端到端的一次流...

2019-03-29 18:44:19 1669

原创 kafka理论知识

kafka介绍 Kafka:是一个消息队列,流平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错、持久的方式存储记录流。当记录发生时，处理记录流。 Kafka通常用于两大类应用：构建可靠地在系统或应用程序之间获取数据的实时流数据管道。构建转换数据流或对数据流作出反应的实时流应用程序。概念：Kafka作为集群运行在一个或多个服务器上，可以跨越多个数...

2019-03-28 19:06:35 1542 1

原创 spark-RDD

Bin/spark-shell码的代码,用Eclipse码一下;(分别使用Java和Scala)Rdd:容器,多台服务器共享的容器;算子:transformaction算子和action算子; RDDAPI文档:Scala:http://spark.apache.org/docs/latest/api/scala/index.html#packageAPI文档:java:http://...

2019-03-24 19:28:10 1295

原创 scala高级

**.Mixin–混编当某个特质被用于组合类时，被称为混入;Java:当一个类有接口的时候称为混入;trait可以继承自类;类实现接口在java中使用(implements),在scala中使用with;一个类只能有一个父类但是可以有多个混入（分别使用关键字extend和with）混入和某个父类可能有相同的父类高阶函数-高阶函数是指使用其他函数作为参数、或者返回一个函数作...

2019-03-23 09:30:41 1384

原创 scala介绍以及使用方法和案例类型

为什么要学习scala:为了后面要学习的spark,因为spark的源码是scalascala是一门计算机语言,C++,C#,PHP,Java,python等,至少学两门语言,会发现,好多都是相通的;相同点:编程的思路是一样的不同点:语法规则不一样;scala是在java基础进行了一次封装;scala的优点语法更简洁;能省代码则省代码;好处:装逼,坏处:可读性差;函数式编程...

2019-03-23 09:05:06 1449

原创 Navicat12 导航猫安装及破解方法

导航猫安装好以后先试用,一般试用期差不多是半个月破解方法日期发生变化,就说明破解成功接下来是连接mysql- 创建数据库,默认密码是,不支持中文(5.7以前才需要修改数据库编码;8.0不需要修改)**创建数据库****查看默认的数据库编码****在mysql解压目录下面重新创建一个名称为my.ini的文件 My.in...

2019-03-21 11:27:11 10161 2

原创 java连接数据库(jdbc)时报错内容

@spark-jdbc我们连接的数据是Mysql,PostGresql(一样的牛,和Oracle特别像,Mysql下面直接就是数据库,而PostGresql下面是Schema,Schema下面才是数据库);运行报错解决方法: 在java中给他添加一个mysql的驱动问题解决!要注意用户名和密码不要错误...

2019-03-21 10:15:06 1422

qq_35968375的博客