virtual.machine-CSDN博客

原创 Spark-day1

Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。2009年诞生于加州大学伯克利分校AMPLab，项目采用Scala编写；2010年开源；2013年6月成为Apache的孵化项目；2014年2月成为Apache的顶级项目。

2023-04-06 10:30:15 206

1、什么是HBase？HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目，是横向扩展的。HBase是一个数据模型，类似于谷歌的大表设计，可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统（HDFS）提供的容错能力。它是Hadoop的生态系统，提供对数据的随机实时读/写访问，是Hadoop文件系统的一部分。人们可以直接或通过HBase的存储HDFS数据。使用HBase在HDFS读取消费/随机访问数据。HBa...

2022-04-18 15:26:20 4762

原创 redis入门

1、什么是redisredis是一个开源的、使用C语言编写的、支持网络交互的、可基于内存也可持久化的Key-Value数据库。2、redis的作者他叫Salvatore Sanfilippo，来自意大利的西西里岛，现在居住在卡塔尼亚。目前供职于Pivotal公司。3、安装redisredis.io下载最新版redis-X.Y.Z.tar.gz后解压，然后进入redis-X.Y.Z文件夹后直接make即可，安装非常简单。make成功后会在src文件夹下产生一些二进制可执行文件，包括

2022-04-18 13:15:57 112

原创 Python使用jieba库实现分词统计词频

import jieba#获得去除标点的文本def get_text(file_name): with open(file_name, 'r', encoding='utf-8') as fr: text = fr.read() #要删除的标点 del_ch = ['《','，','》','\n','。','、','；','"',\ '：',',','！','？',' '] for ch in del_ch: text = text.repl.

2022-04-13 09:17:44 1948

原创 OLTP和OLAP

一、概念On-Line Transaction Processing联机事务处理过程(OLTP)，也称为面向交易的处理过程，其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果，是对用户操作快速响应的方式之一。联机分析处理OLAP是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information)，即共享多维..

2022-03-10 08:53:50 918

原创浅谈MySQL和Oracle的区别

一、宏观上的区别1、mysql与oracle都是关系型数据库，应用于各种平台。mysql最开始是一个瑞典公司开发的，但后来被sun公司收购，后来sun又被oracle收购，所以现在可以说mysql属于甲骨文公司了，mysql开源免费的，而oracle则是收费的，并且价格非常高。mysql属于轻量型数据库；oracle属于重量型数据库。2、mysql默认端口：3306，默认用户：root；oracle默认端口：1521，默认用户：systemmysql的安装卸载很简单，oracle相对来说会麻烦一点

2022-03-07 16:47:35 14852 3

原创 python爬虫01

1.爬虫的概念网络爬虫就是模拟客户端(主要是指浏览器)发送网络请求并接收请求响应,它是一种按照一定规则,自动抓取互联网信息的程序2.爬虫的流程1.获取一个url2.向url发送请求，并获取响应（需要http协议）3.如果从响应中获取url，则继续发送请求获取响应4.如果从响应中提取数据，则将数据进行保存3.HTTP和HTTPS的区别https比http更安全但是性能相对更低http：超文本传输协议，默认端口号80超文本：指超过文本，...

2022-03-04 11:04:46 274

原创 Flink-Day01

一.产生背景:实时数据处理所带来的价值远远大于离线处理,所以需要一个优秀的流处理框架来进行流数据的处理操作. 流数据:一行一行的数据记录一个优秀的流处理引擎标准要求:低延迟、高吞吐量、容错性、窗口时间语义化、编程效率高、运行效果好等二.概念由Apache软件基金会开发的开源流处理框架,核心由Java和Scala编写的,应用与对有界和无界的数据流进行有状态的计算无界数据流：即为实时数据流...

2021-12-02 20:32:18 1497

原创 Spark初识

一.定义专为大规模数据处理而设计的快速通用的计算引擎，并形成一个高速发展应用广泛的生态系统二.特点速度快:内存计算下，Spark 比 Hadoop 快100倍易用性:跨语言,拥有80多个高级运算符通用性:Spark 提供了大量的库,开发者可以在同一个应用程序中无缝组合使用这些库支持多种资源管理器:Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器 ...

2021-11-10 11:13:36 1861

原创 Hive的企业级应用

一、数据仓库架构设计数据仓库的主要工作就是ETL，即是英文 Extract-Transform-Load 的缩写，用来描述数据从来源端经过装载(load)、抽取(extract)、转换(transform)至目的端的过程。数据仓库架构设计，即为公司针对自身业务场景实现的水平分层、垂直分主题的数据仓库构建过程的顶层设计。1. 数据架构架构原则：先水平分层，再垂直分主题域。数据架构...

2021-10-22 22:57:10 258

原创大数据学习之Hive02(自定义函数)

一.UDF 1.1产生背景和意义因为系统的内置函数无法满足所有的业务需求,所以需要我们自己编写函数去实现,应用场景广泛,解决了函数的扩展问题,丰富了可定制化的业务需求 1.2要求-要解决的问题 in:out=1:1 输入一条记录,同时产生一条结果,属于最常见的自定义函数 1.3实现步骤自定义一个java类继承UDF类 ...

2021-10-20 19:03:41 367

原创大数据学习之Hive01

一.数据仓库1.定义英文名:Data Warehouse 简称DW 面向分析的存储系统,其特点有:面向主题,集成,不可修改,反映历史变化.2.数据仓库和数据库的对比主要联系:1.二者都是用来存储数据的2.数据仓库是数据库的衍生及应用 3.二者存在数据交互,你中有我,我中有你主要区别:1.数据库面向事务,数据仓库面向主题...

2021-10-17 15:00:06 212

原创 Hadoop之Yarn学习

一.简介 yarn(Yet Another Resource Negotiator) 是一种新的资源管理器以及通用资源管理系统. 它提供了资源管理,任务调度及监控,提高了集群的管理效率等二.产生背景在hadoop1.x中主要是一个jobTracker带领多个TaskTracker进行工作,jonTracker的压力太大,容易出现单点故障和负载过重等问题.因此诞生了yarn三.yarn的特点及应用资源管理和计算框架的解耦设计,...

2021-10-12 19:57:53 437

原创 MapReduce学习

一.初识MapReduce MapReduce是分布式计算框架,他和HDFS一样也是hadoop的重要组成部分它的产生背景是在web2.0时代,在数据量的指数级增长下,单机扩内存的方式已经不能满足计算需求,所以诞生了MapReduce二.特点分布可靠,对数据集的操作分发给多个节点实现可靠性,每个节点周期性返回完成的任务和最新状态封装了实现的细节,基于api编程提供跨语言的编程能力三.运行流程 ...

2021-09-29 22:50:24 175

原创 HDFS学习

一.HDFS初识1.1是什么 HDFS是hadoop的分布式文件系统1.2组件角色 HDFS中组件有3个,包括NameNode,DataNode,Client NameNode是元数据管理者,负责管理和记录文件的分块和存储的节点 DataNode是工作节点,负责数据块的读写和检索操作 Client是客户端,负责代表用户和NameNode和DataNode的交互,来访问整个系统的对象二.HDFS读写文件操作...

2021-09-29 22:19:29 195

原创 Spring Mvc学习01

1.三层架构表现层：WEB层，用来和客户端进行数据交互的。业务层：处理公司具体的业务逻辑的持久层：用来操作数据库的。2.MVC设计模式介绍Model：数据模型，JavaBean的类，用来进行数据封装。 View：指JSP、HTML用来展示数据给用户 Controller：用来接收用户的请求，整个流程的控制器。用来进行数据校验等3.Spring Mvc简介Spring Web MVC是一种基于Java的实现了Web MVC设计模式的请求驱动类型的轻量级Web框架，即...

2021-08-11 21:03:50 193

原创 mybatis学习总结03

1.mybatis中的连接池 1.1什么是连接池连接池是在应用程序启动时建立足够的数据库连接，并将这些连接组成一个池子，叫连接池。由应用程序动态地对池中的连接进行申请、使用和释放。应用程序可以根据池中连接的使用率，动态增加或减少池中的连接数。连接池是面向数据库连的，是为了优化数据库连接资源。 1.2Mybatis中的连接池...

2021-08-04 20:46:38 130

原创 MyBatis学习总结02

1.#和$的区别#{}表示一个占位符号,可以防止sql注入${}表示拼接 sql 串,可以将 parameterType 传入的内容拼接在 sql 中且不进行 jdbc 类型转换当涉及到多个参数的时候,就可以使用注解的方式(@Param)来进行解决,如果参数的类型是String或者是类似于User实体类的时候,也需要用到注解2.parameterType和resultType2.1parameterSQL 语句传参，使用标签的 parameterType 属性来设...

2021-08-03 20:42:33 199

原创 2021-05-16

一、java概述创建时间：1991年,命名OAK,是SUN公司推出,1995开始以java名义推出创建人：Java之父詹姆斯·高斯林分类：JavaSE,JavaEE,JavaME二、java特性面向对象，跨平台，自动垃圾回收，多线程（jvm四大特性）java是准动态强类型解释性语言java的准动态主要体现在反射机制三、注释1、单行注释//这是单行注释2、多行注释/***这*是*多*行*注*释*/四、数据1、数据概念程序：命令的集

2021-05-17 13:19:07 192

qq_54070501的博客