自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (1)
  • 收藏
  • 关注

原创 解决方法:CentOS7用yum安装软件显示错误:cannot find a valid baseurl for repo: base/7/x86_64

问题一:在Centos7.5安装Httpd学习中,发现使用yum安装软件出现以下的错误Cannot find a valid baseurl for repo: base/7/x86_64原因:百度了各种方法,很多人也发现光是修改 REBOOT=yes 也没用,多次进行挂载、修改网卡配置文件、重置IP地址、重启网络、创建又删除配置文件的,都还是解决不了上面的问题,最后在yum软件仓库的配置文件中发现了问题:位置锁定在:/etc/yum.repos.d/通过 ls 命令查看有下边这些r

2021-05-17 00:02:39 792

原创 MySQL与MonogoDB:MySQL与MongoDB之间的基本区别

MySQL与MonogoDB:MySQL与MongoDB之间的基本区别MySQL和MongoDB事开源数据库,MySQL与MonogoDB在数据表示、查询、关系、事务、模式、设计和定义、规范化、速度和性能方面有很多基本差异。通过比较MySQL与MongoDB。MongoDB事一个可扩展的的高新能开源数据库,处理面向文档的存储。而MySQL事一种广泛使用的关系数据库。在构建自定义Web应用程序时...

2020-04-26 23:46:18 1246

原创 大数据面试总结

1、自我介绍自我介绍需要控制三分钟时间2、项目说明项目背景简要介绍自己熟悉的项目,在介绍时突出项目的经验,要有所突出,介绍自己完整能够拿得出手的项目;项目功能整整体设计要在最短的时间内让面试官观有一个基本的了解,就需要求职者能够详细的介绍项目实现的功能、项目实现的技术架构、能够表达出该项目的创新点与难点、如何去解决项目中的痛点;介绍自己的角色以及工作内容站在面试官的角度,在项目中...

2020-04-14 13:45:22 451

原创 Spark之RDD

一 、 RDD概述1.1 什么事RDD? RDD(Resilient Distributed Dataset) 叫做弹性分布式数据集,他代表一个不可变、可分区、里面的元素可以并行计算的集合。RDD具有数据流模型的特变:自动容错、位置感知性调度和可伸缩性。RDD允许用户执行多个查询时显示的将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。1.2 RDD的属性...

2020-04-12 15:43:02 212

原创 HIVE_面试总结

1. Hive的架构2.Hive和数据库比较Hive和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的, 3)执行延迟Hive执行延迟较高。数据库的执行延迟较低。当然,这个是...

2020-04-01 11:07:09 169

原创 力扣(LeetCode)刷题

力扣(LeetCode)编写一个 SQL 查询,查找所有至少连续出现三次的数字。+----+-----+| Id | Num |+----+-----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |+----+-----+例如,给定上面的 Lo...

2020-03-24 13:01:53 228

原创 python 十大经典排序算法

排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括:关于时间复杂度: 平方阶 (O(n2)) 排序 各类简单排序:直接插入、直接选择和冒泡排序。 ...

2020-01-05 13:16:46 83

原创 Azkaban的基础介绍

一、为什么需要工作流调度器1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等2、各任务单元之间存在时间先后及前后依赖关系3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要对其进行处理,...

2019-12-30 10:48:12 113

原创 Azkaban的安装

安装过程1、软件介绍Azkaban Web 服务器:azkaban-web-server-2.5.0.tar.gzAzkaban Excutor 执行服务器:azkaban-executor-server-2.5.0.tar.gzAzkaban 初始化脚本文件:azkaban-sql-script-2.5.0.tar.gz2、软件下载下载地址:http://az...

2019-12-30 10:45:33 103

原创 Hive SQL 日常工作使用总结

likelike用于指定特定的字符串,或结合正则做模糊匹配select uid from dw.today where tunittype like '%wew.%'rlike是hive中对like的扩展,将原先多个like才能完成的任务,使用一个rlike就可以搞定。select uid from dw.today where tunittype rlike '.*(you|me...

2019-12-30 10:38:36 516

原创 Hive分析窗口函数 NTILE,ROW_NUMBER,RANK,DENSE_RAN

概述本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。注意: 序列函数不支持WINDOW子句。(ROWS BETWEEN)数据准备数据格式cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015-04-12,7cookie1,2015-...

2019-12-30 10:35:43 112

原创 Hive 经典面试案例 十题

第一题需求我们有如下的用户访问数据 userId visitDate visitCount u01 2017/1/21 5 u02 2017/1/23 6 u03 2017/1/22 8 u04 2017/1/20 3 u01 2017/1/23 6 u01 2017/2/21 8 U02 201...

2019-12-26 11:29:37 1555

原创 Hive 动态分区案例

Hive中支持两种类型的分区:静态分区SP(static partition) 动态分区DP(dynamic partition)静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列实在编译时期,通过用户传递来决定的;动态分区只有在SQL执行时才能决定。二)实战演示如何在Hive中使用动态分区1、创建一张分区表,包含两个...

2019-12-18 18:03:53 441

原创 InnoDB存储引擎介绍-(3)InnoDB缓冲池配置详解

InnoDB存储引擎介绍-(3)InnoDB缓冲池配置详解原文链接 https://www.cnblogs.com/ilifeilong/p/7224678.html一、InnoDB缓冲池InnoDB维护一个称为缓冲池的内存存储区域 ,用于缓存内存中的数据和索引。了解InnoDB缓冲池的工作原理,并利用它来保存内存中经常访问的数据,这是MySQL调优的一个重要方面。1.1 LRU...

2019-12-14 23:57:56 671

原创 大数据技术Spark_WordCount学习 (第一篇)

Spark WordCount开发创建的是maven工程,使用的依赖如下:<dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.10.5</vers...

2019-12-06 19:34:24 126

原创 大数据技术Hive内部函数常用简介及查询语法 (第五篇)

1.Hive内置函数:在Hive中 系统给我们内置了很多函数 具体参考官方地址看下官网给我们的介绍:SHOW FUNCTIONS; --查看所有内置函数DESCRIBE FUNCTION <function_name>; --查看某个函数的描述DESCRIBE FUNCTION EXTENDED <function_name>; --查看某个函数的具体使用方...

2019-12-06 19:24:05 177

原创 大数据技术Hive日常问题总结 (第四篇)

1. hive数据分为哪两块?分别存储在哪?元数据和数据本身; mysql等关系型数据库 和 hdfs2. hive的建表SQL语句你们觉得里有哪些内容?(不光光是字段的定义)定义分区,分隔字符,内外表之分3. 默认的换行符和分割符是什么?/t /r4. 加载数据或本地数据到hive表或者覆盖hive表,语法是什么?LOAD DATA LOCAL INPATH 'xxx...

2019-12-06 19:21:46 185

原创 大数据技术Hive结构化、半结构化、非结构化数据总结 (第三篇)

前言:Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。在学习Hive之前 我们先了解下结构化数据,半结构化数据以及非结构化数据的区别。 1.结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子: id name age ...

2019-12-06 19:17:46 3686

原创 大数据技术Hive分区表静态分区&动态分区表$多级分区 (第二篇)

简介:如果一个表中数据很多,我们查询时就很慢,耗费大量时间,如果要查询其中部分数据该怎么办呢,这时我们引入分区的概念。Hive中的分区表分为两种:静态分区和动态分区。1.静态分区:可以根据PARTITIONED BY创建分区表,一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。 分区是以字段的形式在表结构中存在,通过describe table命令可以查...

2019-12-06 19:14:35 1098 5

原创 大数据技术Hive中parquet和SEQUENCEFILE区别 (第一篇)

概述目录概述1. hive文件存储格式包括以下几类:一、TEXTFILE二、SEQUENCEFILE三、RCFile文件格式概述历史RCFile使用基于行存储的优点和缺点基于列存储的优点和缺点源码分析1. Writer2. appendRCFile的索引机制flushRecords的具体逻辑RCFile的Sync机制RCFilec...

2019-12-06 19:03:34 947

原创 Impala报错总结(第一篇)

注意:想要使用flink on yarn 模式,需要确保hadoop集群启动成功,并且需要在yarn的某一个节点上面执行flink on yarn的脚本没有启动hadoop集群,执行flink的bin/yarn-session.sh脚本会报下面错误脚本会一直卡在这里,一直输出重试日志,连不上resoucemanager,说明hadoop集群每启动,解决方案:启动hadoop集群即可...

2019-12-06 11:37:27 919

原创 企业数据仓库总线架构、总线矩阵笔记 (第三篇)

一、总线架构维度建模的数据仓库中,有一个概念叫Bus Architecture,中文一般翻译为“总线架构”。总线架构是Kimball的多维体系结构(MD)中的三个关键性概念之一,另两个是一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。在多维体系结构(MD) 的数据仓库架构中,主导思想是分步建立数据仓库,由数据集市组合成企业的...

2019-12-05 14:12:55 10247 2

原创 数据仓基础概述 —— (第二篇)

二、在Hadoop上实现数据仓库(大部分翻译自《Big Data Warehousing》)数据仓库技术出现很长时间了,现在为什么要从传统数据库工具转为使用Hadoop呢?答案就是最引人关注的流行词汇 —— 大数据。对许多组织来说,传统关系数据库已经不能够经济地处理他们所面临的数据量。而Hadoop生态圈就是为了能够廉价处理大量数据的目的应运而生的。下面看看大数据是怎么定义的。...

2019-12-04 23:55:50 384

原创 Hadoop 1、在虚拟机上进行 HDFS 环境搭建--(第三篇)

Hive 2、Hive 的安装配置(本地MySql模式)一、前提条件  安装了Zookeeper、HadoopHDFSHA 安装方法:https://blog.csdn.net/qq_36690988/article/details/103366935二、安装Mysql  因为使用量多的是单用户数据库模式,并且数据库使用最多的是mysql 所以在这里选择mysql数据库;...

2019-12-03 14:46:03 329

原创 Hadoop配置HDFS HA (high available) -- (第二篇)

前提条件先搭建https://blog.csdn.net/qq_36690988/article/details/103366852的环境,然后在其基础上进行修改一、安装Zookeeper由于环境有限,所以在仅有的4台虚拟机上完成多个操作;a.在4台虚拟中选3台安装Zookeeper,我选 node5 node6 node7b.在4台虚拟中选3台作为JournalNode的...

2019-12-03 14:44:57 142

原创 Hadoop 在虚拟机上进行 HDFS 环境搭建--(第一篇)

一、准备条件1.四台Linux虚拟机(1台NameNode节点,1台Secondary节点(Secondary和其中1台DataNode共用),外加2台DataNode)2.下载Hadoop版本,本例使用Hadoop-2.5.2版本二、安装Java JDK最好安装,JDK 1.7 因为JDK 1.7的兼容性最好#安装JDKrpm -ivh jdk-7u79-linux-...

2019-12-03 14:33:43 972 1

原创 Sqoop抽取Mysql源数据至Hive ---(第一篇)

Hadoop、Hive、MySQL 安装 (hive、mysql安装详情在上一篇)1.1. 下载Sqoop链接:http://www.apache.org/dyn/closer.lua/sqoop/1.4.安装包放置百度云盘:链接:https://pan.baidu.com/...

2019-12-03 14:02:35 354

原创 数据仓库设计基础概述——(第一篇)

一、什么是数据仓库一种被广泛接受的数据仓库定义是Bill Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的 —— 数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持决策。它主要的目标是分析和处理数据,和传统的操作型事务处理有很大区别。1. 操作型系统和分析型系统操作型系统完成组织的核...

2019-12-03 13:37:24 616

原创 Explain Sql 执行计划笔记

MySQL Explain详解在日常工作中,我们会有时会开慢查询去记录一些执行时间比较久的SQL语句,找出这些SQL语句并不意味着完事了,些时我们常常用到explain这个命令来查看一个这些SQL语句的执行计划,查看该SQL语句有没有使用上了索引,有没有做全表扫描,这都可以通过explain命令来查看。所以我们深入了解MySQL的基于开销的优化器,还可以获得很多可能被优化器考虑到的访问策略的细...

2019-12-03 13:22:08 75

原创 Mysql 日期函数,时间函数总结-笔记

MySQL 获得当前日期时间 函数获得当前日期+时间(date + time)函数:now()mysql> select now();+---------------------+| now() |+---------------------+| 2008-08-08 22:20:46 |+---------------------+获得当前日期+时间(date +...

2019-11-29 15:35:25 99

原创 MySQL 行级锁、表级锁、索引锁

由于最近在做业务数据分析,以及一些相对高频的数据操作逻辑,过程中发现对于一些概念上的东西并不是很清晰,导致在程序上遇到了一些关于数据加锁的相关问题,所以这里针对所查阅的相关资料做一下总结和整理,提供给大家留作参考,也给本人做个笔记,学无止境,欢迎批评指正MySQL的两个存储引擎中,MyISAM 只支持表级锁,InnerDB支持行级锁添加了(行级锁/表级锁)锁的数据不能被其它事务...

2019-11-17 14:20:33 266

原创 python字符串前面加u,r,b的含义

u/U:表示unicode字符串 不是仅仅是针对中文, 可以针对任何的字符串,代表是对字符串进行unicode编码。 一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u;但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。 建议所有编码方式采用utf8r/R:非转义的原始字符串 与普通字符相比,其他相对特殊的字符,其中可能包含转义字符,即那些,反

2017-12-02 16:57:54 979

原创 Ubuntu下搭建FTP服务器图解

Ubuntu下搭建FTP服务器图解在Linux中ftp服务器的全名叫 vsftpd,我们需要利用相关命令来开启安装ftp服务器,然后再在vsftpd.conf中进行相关配置,下面我来介绍在Ubuntu中vsftpd安装与配置增加用户的方法。(1)、首先用命令检查是否安装了vsftpdvsftpd -version 如果未安装用一下命令安装sudo apt-get

2017-12-02 13:05:41 147

原创 JAVA 基本功秘籍

1. Java数组与内存控制一、Java数组初始化Java数组是静态的,即当数组被初始化之后,该数组的长度是不可变的。Java数组使用之前必须先对数组对象进行初始化,所谓初始化,就是为数组的所有元素分配内存空间,并为每个数组元素指定初始值。Java基本类型数组的两种初始化方式静态初始化:初始化时由程序员显式指定每个数组元素的初始值,由系统决定数组长度。

2017-12-02 11:46:26 400

原创 Python——通过while、for、if—else完成一个小程序 学Python的第三天,郑老师让我们写一个计算车费的小程序,还好之前有写小程序的基础,然后很快就完成了,下面是相关内容(^_^)

学Python的第五天,郑老师让我们写一个计算车费的小程序,还好之前有写小程序的基础,然后很快就完成了,下面是相关内容(^_^)∠※题目要求:根据以下信息提示,请帮小明计算,他每月乘坐地铁支出的总费用: 轨道交通价格调整为:6公里(含)内3元;6公里至12公里(含)4元;12公里至22公里(含)5元;22公里至32公里(含)6元;32公里以上部分,每增加1元可乘坐20公里。使用

2017-12-02 11:38:28 764

原创 名片管理系统 以下代码个人原创,在需要说明的地方我在后面加了注释,当然我的代码是希望给大家一个思想,还有很多很多不足之处,希望大佬们发现后私信我哦,咱们一起探讨(嘻嘻,说得有点小装逼呀,其实是老师发

名片管理系统以下代码个人原创,在需要说明的地方我在后面加了注释,当然我的代码是希望给大家一个思想,还有很多很多不足之处,希望大佬们发现后私信我哦,咱们一起探讨(嘻嘻,说得有点小装逼呀,其实是老师发个模版,让我们去加内容的):需要注意的一个地方是,如果你用的版本是3.6的,那么下面的用到的所有从外界接收信息所用到的input()用input()就行了,如果是2.7版本,那么如果接收的

2017-12-02 10:24:16 1059

软件工程知识点总结.doc

软件工程知识点总结.doc

2021-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除