- 博客(84)
- 资源 (4)
- 收藏
- 关注
原创 HDFS读写流程以及多节点、单节点磁盘负载均衡
副本放置策略生产上建议3个副本。第一个副本:假如上传节点为DN节点,优先放置本节点;否则就随机挑选一台磁盘不太慢,CPU不太繁忙的节点。第二个副本:放置在于第一个副本的不同的机架的节点上第三个副本:放置于第二个副本相同机架的不同节点上正常很多公司单独选择一个节点,作为client node,没有DN和NN,只有集群的XML文件,可以做通信,能知道数据提交到什么地方CDH机架有一个默认机架,这个机架看成一个大的、虚拟的概念;CDH一般不调整这种默认机架。文件写流程
2021-12-10 00:40:54 2642
原创 数据仓库——数据重刷机制
在大数据处理、分析中存储一直都是基石,但是有一个问题是即使存储不挂,数据也不一定就是准确的;如果存储挂了,数据一定不准确,此时就需要校验数据是否正确,并且将数据修改正确正确的机制。
2021-12-10 00:32:47 2404
原创 记一次失败的MySQL修复经历,报错信息:Tablespace X was not found at X;Set innodb_force_recovery=1 to ignore this
事情的起因首先前一天晚上我跑了一个not in语法的SQL语句,因为正好是下班了就让它自己跑去了,结果一不小心造成了笛卡尔积,第二天发现空间爆了,于是开始正常标准操作:暂停,查看进程,发现InnoDB正在回滚,因为还有很多工作想让他快一点,我就重启了MySQL。。。于是悲剧就开始了事情的经过重启之后提示mysql起不来,查看状态,报错状态码3.查看错误日志2020-09-28T02:13:01.909970Z 0 [ERROR] InnoDB: Tablespace 1830 was no
2020-09-30 11:32:07 7173
原创 分别使用 Navicat 和 DBeaver 连接 Oracle数据库,附带脱坑指南
使用各种连接工具连接Oracle数据库事先已经安装好了连接工具们,所以就不详细说明了,直接上干货,中间还有很多脱坑指南前提工作(提前填坑)虽然我的Oracle在本地,但是工作中的oracle数据库大多在服务器上,所以为了更好的模拟远程,我一步一步修改查看服务器IP地址打开Oracle的安装包路径,就是上一篇Oracle的解压路径。找到WINDOWS.X64_193000_db_home ==> network ==> admin修改配置文件编辑 listene
2020-07-21 13:18:17 4857
原创 Windows10 安装 Oracle 19c 文档
下载安装包Oracle软件下载,建议通过官网免费下载,但是需要注册。下载地址:https://www.oracle.com/database/technologies/oracle19c-windows-downloads.html通过下载页面可以选择安装压缩包(WINDOWS.X64_193000_db_home.zip )。如果嫌注册麻烦,提供百度云下载链接:https://pan.baidu.com/s/12NOdXMEXbToXlyhE2f3isQ提取码:1j5q压.
2020-07-20 23:51:22 4878
原创 CDH Hive执行聚合函数报错return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask脱坑指南
一、组件版本我用的是CDH5.16.1,Hive版本是1.1.0二、出现问题1. 问题一普通查询很正常但是聚合查询就会报错,然后去查找日志发现在本地没有\tmp\logs文件,这个文件是用来存放Yarn的log日志的地方,之后查看CDH文档发现yarn的job日志同一存放在【http://XXXX(自己的节点IP):19888/jobhistory】中找到报错的job。打开发现报错...
2019-08-23 16:35:40 7711
原创 Apache Hbase概述
HBase是一个领先的No-SQL数据库,它在HDFS上存储数据HBase是面向列的数据库HBase是一个分布式哈希映射HBase是基于Google Big Table论文HBase使用HDFS作为存储,并利用其可靠性数据访问速度快,响应时间约2-20毫秒支持每个节点20k到100k以上ops/s的数据库读写操作扩展到20,000多个节点关系型数据库一般都有外...
2019-06-19 00:06:25 1897
原创 NoSQL基本常识
NoSQL(最初指“非SQL(non SQL)”、“非关系(non relational)”或“不仅是SQL(Not Only SQL)”)NoSQL是一个通用术语,用于指不遵循传统RDBMS模型的任何数据存储——具体来说,数据是非关系型的,它不使用SQL作为主要查询语言。它是用于指试图解决可伸缩性和可用性问题而不是原子性或一致性问题的数据库。NoSQL可以用描述任何一种数据文件,不具备传...
2019-06-18 22:21:44 19662
原创 案例分析之消费数据
掌握基于Hive 或 Spark SQL的数据分析某零售企业根据最近1年门店收集的数据进行数据分析 潜在客户画像 用户消费统计 门店的资源利用率 消费的特征人群定位 数据的可视化展现客户细节参数:语言数据不正确交通参数:根据transaction_id,该表具有重复行。然而,这些都是有效的数据,所以我们需要修复它们...
2019-06-18 21:50:28 2444
原创 Apache Hive高阶实战
Hive的事务(了解):一组单元化操作,这些操作要么都执行,要么都不执行,是一个不可分割的工作单位。Atomicity(原子性): 不可再分割的工作单位,事务中的所有操作要么都发生,要么都不发生。Consistency(一致性): 事务开始之前和事务结束以后,数据库的完整性约束没有被破坏。这是说数据库事务不能破坏关系数据的完整性以及业务逻辑上的一致性。Isolation(独...
2019-06-18 11:56:07 714
转载 JAVA的四类八种基本数据类型
先说明两个词汇的基本概念:bit (位):位是计算机中存储数据的最小单位,指二进制数中的一个位数,其值为“0”或“1”。byte (字节):字节是计算机存储容量的基本单位,一个字节由8位二进制数组成。在计算机内部,一个字节可以表示一个数据或者一个英文字母,但是一个汉字需要两个字节表示。1B=8bit1Byte=8bit1KB=1024Byte(字节)=8*1024bit1MB=1...
2019-06-05 09:03:58 2847
原创 Apache Hive进阶实战
Udf 单行函数:一行输入一行输出Udaf 多行函数:多行输入一行输出Udtf 用户表函数:一行输入多行输出,主要用在侧视图Hive视图概述:视图是一个元数据,只能在MySQL DataStore中找到视图是一种逻辑结构,通过在虚拟表中隐藏子查询、连接和函数来简化查询,数据查询的快捷方式,把复杂的查询放在view里Hive视图不存储数据或获得物化一旦创建...
2019-04-11 00:09:11 734
原创 Apache Hive基础实战
什么是Hive:建立在Hadoop之上的数据仓库解决方案提供类似sql的查询语言,命名为Hive查询语言HQL,它有最小的学习曲线早期的Hive开发工作于2007年在Facebook开始Hive让更多的人使用Hadoop今天Hive是Hadoop下的顶级Apache项目,网址是hive.apache.orgHive可以看成是基于Hadoop的mysqlHive把Hado...
2019-04-10 23:42:47 1825
原创 MapReduce基础原理及应用
MapReduce基础原理:MapReduce(起源于Google):MapReduce是一种计算模型,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。用于管理DataNode用于大规模数据处理:每个节点处理存储在该节点上的数据每个MapReduce工作由两个阶段组成:Map;Reduce自动MapReduce计算:MapReduce计算是并行和自动分布的...
2019-04-07 20:20:44 6094
原创 大数据Hadoop核心概念
大数据是一个术语用来描述一个拥有高速,复杂,和复杂数据;但是需要先进的技术和技能能够获得,存储,描述,管理和分析信息QPS:query per second每秒响应大数据四大特点:容量大(Volume);速度快(Velocity);数据多样性(Variety);价值密度比较低(Value)数据多种格式(Variety):结构化数据:SQL,主要是关系型数据库,表格形式的数据,C...
2019-04-02 17:04:30 1811
原创 Linux基础语法,Shell基础脚本
Linux基础语法:1. / :绝对路径:/home/anaconda3 相对路径:anaconda3 用户home: ~2. pwd :输出当前工作目录的全名3. ls :列出目录内容ls -l :长清单格式ls -a :所有条目ls -d :列表目录ls -R :列出子目录ls -1 :一行显示一个名字ls -F :有分类的目...
2019-04-01 20:28:49 703
原创 Angular2下载安装流程
准备工作:首先下载Node.js和npm包管理器。Node.js:Angular需要Node.js版本8.x或10.x:检查版本,使用node -v在终端/控制台窗口中运行。下载Node.js:https://nodejs.org/en/;下载10.15.0 LTS(Recommended For Most Users)之后直接安装npm包管理器:Angular,A...
2019-03-30 13:36:07 349
原创 Angular2安装修改配置路径方法
修改Nodejs内置的npm默认配置路径:1. 打开cmd命令行,查看当前配置输入 npm config ls先看一下当前npm的配置环境2. 修改路径这里需要修改两个路径,module路径和cache路径module对应prefixcache对应cache首先在别的盘新建两个目录D:\nodejs\node_modules\npm\node_cache...
2019-03-30 13:11:50 1118
原创 java Web中MVC、Ajax与jQuery重点总结
MVC:系统结构分析:系统处理流程:设计模式:JavaBean+Servlet+JSP模型—model视图—view控制器—controllerJSP model1:JSP中进行显示和调度。 JSP model1:JSP:负责生成动态网页Servlet:负责流程控制JavaBean:负责业务逻辑处理MVC处理过程:控制器接...
2019-01-30 16:34:02 936
原创 Java Web中过滤器和监听器重点总结
过滤器:是向Web应用程序的请求和响应添加功能的Web服务组件 过滤器可以统一的集中处理请求和响应 使用过滤器技术实现对请求数据的过滤 过滤器用于拦截传入的请求和传出的响应 监视、修改或以某种方式处理正在客户端和服务器之间交换的数据流 使用过滤器封装公共任务具有如下优点:模块化;声明式;可重用;透明性过滤器的常见用途:利用过滤器特殊的执行时机,可以实现 Web 应用程序中的预处...
2019-01-29 23:42:14 3643
原创 Java Web中Servlet基础重点总结
JSP只是负责显示的页面,最好不要进行接收请求,调用JavaBean去处理请求的工作,为了让JSP只专注于显示就要引入Servlet将显示与请求、处理请求的工作分开各种网页系统组成:JSP(Java Server Pages):显示数据Servlet:接收请求,调用JavaBean去处理请求JavaBean:封装数据;业务逻辑Servlet做了什么?本身不做任何业务处理 ...
2019-01-28 20:52:24 2985
原创 Java Web中EL与JSTL重点总结
EL表达式:为什么要使用EL表达式?JSP脚本有一些不足:代码结构混乱 脚本与HTML混合,容易出错 代码不易于维护EL的特点:自动转换类型:EL得到某个数据时可以自动转换类型 使用简单使用EL表达式来优化程序代码,增加程序可读性:示例:<table><c:forEach var="news" items="${list}"><...
2019-01-28 16:49:41 829
原创 Java Web中第三方控件与分页查询重点总结
CKEditor:网页中实现所见即所得的编辑器第三方组件:第三方组织提供的组件,会用就行要求:会用就行,知道步骤就可以,不用管怎么开发的,不需要理解 不需要记住,因为可能会有更好的使用CKEditor步骤:下载CKEditor 解压到项目中 在页面中加入CKEditor 使用CKEditor编辑内容 提交CKEditor编辑的内容enctype="multip...
2019-01-28 11:56:31 1071
原创 Java Web中数据源及分层开发重点总结
DAO模式:Data Access Object(数据存取对象)位于业务逻辑和持久化数据之间实现对持久化数据的访问DAO起着转换器的作用,把实体类转换为数据库中的记录DAO模式的组成部分:DAO接口;DAO实现类;实体类;数据库连接和关闭工具类properties配置文件:Java中的配置文件常为properties文件:后缀为.properties 格式...
2019-01-28 11:36:55 902
原创 Angular2下载安装流程
1. 准备工作:首先下载Node.js和npm包管理器。Node.js:Angular需要Node.js版本8.x或10.x:检查版本,使用node -v在终端/控制台窗口中运行。下载Node.js:https://nodejs.org/en/;下载10.15.0 LTS(Recommended For Most Users)之后直接安装npm包管理器:Angular,...
2019-01-22 09:33:41 1066
原创 修改Nodejs内置的npm默认配置路径
1. 打开cmd命令行,查看当前配置输入 npm config ls先看一下当前npm的配置环境 2. 修改路径这里需要修改两个路径,module路径和cache路径module对应prefixcache对应cache首先在别的盘新建两个目录D:\nodejs\node_modules\npm\node_cacheD:\nodejs\node_modul...
2019-01-22 09:21:52 7740 2
原创 Java Web中JSP实现数据传递和保存重点总结
获取表单提交的数据:JSP(Java Server Pages)从浏览器到服务器是浏览器发送请求(request)从服务器到浏览器是浏览器接收响应(response)【通过JSP来实现】request对象:主要用于处理客户端请求request对象常用方法: 方法名称 说明 String getParamete...
2019-01-12 09:43:55 10297 1
原创 Java Web中动态网页开发基础重点总结
为什么学习B/S技术?客户端 服务器 C(Client)/S(Server)有局限性,必须安装客户端浏览器 服务器 B(Browser)/S(Server)无需安装客户端软件,也无需更新B/S与C/S的比较: B/S架构 C/S架构 软件安装 浏览器 ...
2019-01-10 23:32:24 4804
原创 SpringBoot项目连接数据库报错
连接信息配置错误SpringBoot项目连接数据库报错:Access denied for user 'root'@'localhost' (using password: YES)reate connection SQLException, url: jdbc:mysql://localhost:3306/ebook, errorCode 1045, state 28000java....
2019-01-10 09:14:52 2312 2
原创 IDEA中创建Maven Projects项目的方法
1. File中创建project并选择Maven——注意要选择Project SDK,也就是JDK的的路径2. Next之后填入信息自己起名字3. Next之后查看路径正确finish4. 点击右上角的下拉框,选择Edit Configurations,打开,点击弹出的窗口中左上角的小加号,并选择Maven5. 之后填入名字,并在Command line中填入to...
2018-11-06 21:24:35 28734 1
原创 Linux重点代码总结汇总
Linux入门:操作系统分类:应用领域:桌面操作系统;服务器操作系统;嵌入式操作系统 源码开放程度:闭源操作系统;开源操作系统 所支持用户数:多用户操作系统;单用户操作系统企业级应用操作系统和普通个人操作系统的区别: 企业级应用操作系统 个人操作系统 受众群体 企业 个人 ...
2018-11-06 16:14:01 366
原创 数据库中JDBC重点总结
JDBC是Java数据库连接技术的简称,提供连接各种常用数据库的能力。 JDBC API:实现Java程序对各种数据库的访问 一组接口和类,位于java. sql与javax. sqI包 面向接口编程学习方法:JDBC步骤固定,理解记忆 多练习,加深理解JDBC访问数据库步骤:DriverManager:依据数据库的不同,管理JDBC驱动Connecti...
2018-10-14 00:02:30 882
原创 数据库设计重点总结
为什么需要设计数据库:糟糕的数据库设计:数据冗余、存储空间浪费 数据更新和插入的异常 程序性能差 良好的数据库设计:节省数据的存储空间 能够保证数据的完整性 方便进行数据库应用系统的开发 软件项目开发周期中数据库设计:需求分析阶段:分析客户的业务和数据处理需求①设计数据库的步骤a. 收集信息与该系统有关人员进行交流、座谈,充分了解用户需求,理解数...
2018-09-26 00:28:56 3082
原创 MySQL中备份和恢复重点总结
MySQL的备份:数据库备份必要性:保证重要数据不丢失 数据转移 MySQL数据库备份方法:1. mysqldump备份工具(mysqldump它是和mysql同一级别的命令)将CREATE和INSERT INTO语句保存到文本文件属于DOS命令作用:转储数据库 搜集数据库进行备份 将数据转移到另一个SQL服务器(不一定是MySQL服务器)语法:mys...
2018-09-25 22:56:31 403
原创 MySQL中的索引重点总结
数据库索引:什么是索引:索引是一种有效组合数据的方式,为快速查找到指定记录MySQL索引按存储类型分类:B-树索引:InnoDB、MyISAM均支持哈希索引作用:提高查询速度 确保数据的唯一性 可以加速表和表之间的连接,实现表与表之间的参照完整性 使用分组和排序子句进行数据检索时;可以显著减少分组和排序的时间 全文检索字段进行搜索优化分类:1. 主键索...
2018-09-25 22:38:25 238
原创 MySQL中的视图重点总结
视图:不同的人员关注不同的数据保证信息的安全性 视图是一张虚拟表:表示一张表的部分数据或多张表的综合数据 其结构和数据是建立在对表的查询基础上视图中不存放数据:数据存放在视图所引用的原始表中一个原始表,根据不同用户的不同需求,可以创建不同的视图 视图的用途:筛选表中的行 防止未经许可的用户访问敏感数据 降低数据库的复杂程度 将多个物理数据库抽象为一个逻...
2018-09-25 22:36:29 326
原创 MySQL中的事务处理重点总结
事务(TRANSACTION):是作为单个逻辑工作单元执行的一系列操作,就是将一组SQL语句放在同一批次内去执行多个操作作为一个整体向系统提交,如果一个SQL语句出错,则该批次内的所有SQL都将被取消执行事务是一个不可分割的工作逻辑单元示例:转账过程就是一个整体;它需要两条UPDATE语句来完成,这两条语句是一个整体;如果其中任一条出现错误,则整个转账业务也应取消,两个账户中的...
2018-09-25 22:34:28 221
原创 MySQL数据库中的DML语句、DQL语句以及高级查询重点总结
使用SQlyog管理工具:1. 工具创建数据库:数据库字符集:存什么字符就要选什么编码,如:要是中文就要选utf8数据库校对规则:字符在比较时要遵循一定的规则,如:中文编码规则,不区分大小写要选utf8_general_ci 2. 工具建表①显示表结构:desc表名②显示表创建语句:show create table 表名 3. 字段的约束及属性 ...
2018-09-20 22:38:56 1995
原创 初识MySQL重点总结
为什么学习数据库?岗位技能需求 现在的世界,得数据者得天下 存储数据的方法 程序,网站中大量数据如何长久保存? 数据库能够做什么?存储大量数据,方便检索和访问 保持数据信息的一致、完整 共享和安全 通过组合分析,产生新的有用信息 什么是数据库?数据库(Database;简称DB)概念:长期存放在计算机内,有组织、可共享的大量数据的集合,是一个数据“仓库”...
2018-09-20 00:47:46 686
dbeaver.rar
2020-07-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人