数据库
FlizhN
这个作者很懒,什么都没留下…
展开
-
HDFS存储架构剖析以及读写流程
HDFS存储架构主要由三部分组成:NameNode,DataNode,ClientNameNodeNamenode 是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。 文件操作,NameNode 负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问它跟那个DataNode联系,否则NameNode会成为系统的瓶颈。 副本存放在哪些DataNode上...转载 2020-10-16 18:53:05 · 343 阅读 · 0 评论 -
什么是Kafka——分布式消息系统
What’s is Kafka:Apache Kafka是分布式发布-订阅消息系统。他最初由Linkedln公司开发,之后成为Apache项目的一部分。Kafka是一种快速,可拓展的,设计内在就是分布式的,分区的和可复制的提交日志服务Apache Kafka与传统消息系统相比,有以下不同:: 它被设计为一个分布式系统,易于向外拓展; 它同时为发布和订阅提供吞吐量; 它支持多订阅者,当失败时能自动平衡消费者; 它将消息持久化到磁盘,因此可用于批量消费,例如ETL以及实时应用程序。转载 2020-10-16 18:46:44 · 443 阅读 · 0 评论 -
什么是Zookeeper——动物管理员?
What’s is ZooKeeper:一个开源的分布式的,为分布式应用提供协调服务的Apache项目。功能包括::配置维护,名字服务,分布式同步,组服务等 目标:封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper特点:最终一致性:为客户端展示同一视图,这是 ZooKeeper 最重要的性能。 可靠性:如果消息被一台服务器接受,那么它将被所有的服务器接受。 实时性:ZooKeeper 不能保证两个客户端同时得到刚更新的数据,如果需要最转载 2020-10-16 18:45:19 · 2012 阅读 · 0 评论 -
MapReduce编程模板及shuffle过程简介
MapReduce运行流程(7步):作业启动>>>作业初始化>>>任务调度(Yarn)>>>map>>>shuffle>>>reduce>>>作业完成MapReduce将整个并行计算过程抽象到两个函数: Map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行。 Reduce(化简):对一个列表的元素进行合并。 一个简单的MapReduce程序只需要指定m转载 2020-10-16 18:39:12 · 223 阅读 · 0 评论 -
什么是Hive——大数据仓库Hive基础
Hive是什么:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;其本质是将HQL转化成MapReduce程序。 构建在Hadoop之上的数据仓库: 使用HQL作为查询接口 使用HDFS存储 使用MapReduce计算 灵活性和扩展性比较好:支持UDF,自定义存储格式等: 适合离线数据处理 Hive体系结构:Hive的数据存储基于HDFS,其没有专门的数据存储格式,主要的存储结构主要包括:数据库,转载 2020-10-16 18:17:43 · 439 阅读 · 0 评论 -
hue中融合的一些技术框架简介
hue的demo点击调整到hue的demo。直接登录查看HDFS文件浏览器HUE可以很方便的浏览HDFS中的目录和文件,并且进行文件和目录的创建、复制、删除、下载以及修改权限等操作。HDFS实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。但,用户身份机制对HDFS本身来说只是外部特性。HDFS并不提供创建用户身份、创建组或处理用户凭证等功能。 使用HU原创 2020-10-09 10:39:20 · 275 阅读 · 0 评论 -
hue的简介及基本原理
hue定义:HUE=Hadoop User Experience个人理解:可视图的webui界面,方便大数据技术之间的CRUD操作。 官方定义:Hue是一个能够与Apache Hadoop交互的Web应用程序。一个开源的Apache Hadoop UI。 特性:一个HDFS的文件浏览器,一个MapReduce/YARN的Job浏览器,一个 HBas的浏览器,Hive,Pig,Cloudera Impala 和 Sqoop2 的查询编辑器。它还附带了一个Oozie的应用程序,用于创建和监控工作流程原创 2020-10-09 09:57:49 · 11712 阅读 · 0 评论 -
explain语句字段解析
explain select * from t_date_inrease id: SELECT识别符。这是SELECT的查询序列号 select_type:指明各“单位select 查询”的查询类型: PRIMARY :子查询中最外层查询 SUBQUERY : 子查询内层第一个SELECT,结果不依赖于外部查询 DEPENDENT SUBQUERY:子查询内层第一个SELECT,依赖于外部查询 UNION :UNION语句中第.原创 2020-08-24 14:37:01 · 326 阅读 · 0 评论 -
kettle的环境变量配置及连接8.0mysql报错解决方案
a).打开我的电脑--属性--高级--环境变量b).新建系统变量JAVA_HOME和CLASSPATH变量名:JAVA_HOME变量值:C:\Program Files\Java\jdk1.8.0_211[具体路径以自己本机安装目录为准]原创 2020-08-13 16:58:31 · 907 阅读 · 0 评论 -
kettle工具原理
kettle基础介绍kettle,ETL工具的一种,现在kettle改名了,叫Pentaho Data Integration(PDI),但更多时候大家还是习惯用之前的名字kettle。Kettle是一款国外开源的ETL工具,纯java编写(依赖jdk),可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle中有两种脚本文件,transformation(.ktr)和job(.kjb)transformation:完成针对数据的基础转换 job:则完成原创 2020-07-29 16:33:00 · 4285 阅读 · 0 评论 -
Mysql零碎知识点记录
char(100) 型,在字段建立时,空间就固定了, 不管是否插入值(NULL也包含在内),都是占用 100个字符的空间的。varchar这样的变长字段, null 不占用空间。 尽可能的使用 varchar/nvarchar 代替 char/nchar ,因为首先变长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。...原创 2020-06-29 11:20:37 · 249 阅读 · 0 评论 -
MySQL中的.ibd、.frm、.MYD、.MYI文件及恢复
mysql的data文件夹下能看到很多格式的文件,并非每个文件都代表了数据库的数据。有一些是代表了数据库的表结构等信息。类型如果是通过MyIsAM建立的表,则一张表的数据文件有3个,分别是xxx.frm 表结构文件xxx.MYD 数据文件xxx.MYI 索引文件如果是通过InnoDB(默认),则一张表有 2 个数据文件,分别是xxx.frm 表结构文件xxx.ibd 数据和索引文件/*InnoDB引擎开启了独立表空间(my.ini中配置innodb_file_pe..原创 2020-06-29 10:17:43 · 2395 阅读 · 0 评论 -
Mysql查询优化(二):数据库及表查询配置优化
除了SQL语句的优化,从开发和运维层面来讲,硬件配置、MySQL配置、数据表设计、索引优化才是数据查询优化的重要手段。业务查询通常会要求将查询时间控制到0.5s之内,但是实际作为分析师来讲,“慢查询”是常态,但是也得尽量了解数据库优化原理,降低查询速度,也能提升产出效率。原创 2020-06-28 21:57:10 · 263 阅读 · 0 评论 -
表的truncate,drop和delte区别
日志记录delete:删n行,并将删除操作作为事务记录在日志,以便回滚。truncate:删除所有数据,并不将删除操作记录在日志。速度快原创 2020-06-28 21:48:34 · 353 阅读 · 0 评论 -
Mysql查询优化(一):SQL语句优化
查询速度的优化有大致有三个考虑方向,一是硬件层面的优化,二是数据库“配置”优化,三是SQL语句优化。大部分搞数据分析的其实只有查询访问的权限,甚至建临时表的权限都没有,那这时候就专注在SQL本身的优化就行了。慎用否定查询常用的否定查询:!=,<>,not in...原创 2020-06-27 22:39:20 · 160 阅读 · 0 评论 -
Navicat通过存储过程和事件实现每日数据自动刷新
由于报表统计需要,研究了一下navicat的存储过程和事件的调度,实现起来很简单,也很实用,这里记录一下。大致的流程是这样的:一、建立更新用的数据表略二、创建存储过程过程:一般用来对数据表的操作 函数:一般用于计算输出某个值选择过程,模式这里会出现3个参数,IN代表你的参数是一个输入的参数,out代表你的参数是一个输入的参数,inout代表你的参数是一个输入或输出的参数。这里是参数是为了让事件调度的时候可以传入相应的值。到了过程编辑的页面,在begin和end之间..原创 2020-06-11 17:01:05 · 2412 阅读 · 0 评论 -
PostgreSQL四类窗口函数总结
postgresql的窗口函数和Hive的hql基本一致,利用窗口函数能够解决绝大部分的常用业务数据分析需求。先总结:常用的4类窗口函数:用于聚合计算的窗口函数:sum() over(); count() over(); avg() over; 用于分组排序的窗口函数:row_number() over(); rank() over(); 用于分组查询的窗口函数:ntile() o...原创 2020-04-29 17:21:25 · 4326 阅读 · 0 评论 -
MYSQL 5.7报错 Error Code: 1290. The MySQL server is running with the --secure-file-priv option so it..
用MySQL 5.7导出数据的时候出现报错,报错内容:Error Code: 1290. The MySQL server is running with the --secure-file-priv option so it cannot execute this statement根据错误找了相关资料,发现是secure-file-priv会指定文件夹作为导出文件存放的地方,那我们可以先找出这...原创 2020-07-07 09:32:59 · 3650 阅读 · 0 评论