精彩绝伦体力人-CSDN博客

原创大数据学习笔记15-Hive基础3

表的分区及分桶;数据读取和写入;内置函数

2024-04-29 20:21:51 498 1

原创大数据学习笔记14-Hive基础2

字段类型;分隔符指定;表的删除修改;表的分类;表数据写入;表分区

2024-04-29 20:15:18 859 1

原创大数据学习笔记13-Hive基础1

Hive是一个SQL转化转化工具，将SQL的计算转为MapReduce的计算，让开发人员更加方便进行大数据开发。

2024-04-29 20:09:04 329 1

MapReduce是hadoop三大组件之一,是分布式计算组件Map阶段 : 将数据拆分到不同的服务器后执行Maptask任务,得到一个中间结果Reduce阶段 : 将Maptask执行的结果进行汇总,按照Reducetask的计算规则获得一个唯一的结果我们在MapReduce计算框架的使用过程中,我们只需要关注,Map任务的规则,和Reduce任务的规则即可MapReduce的核心思想是: 先分(Map)再和(Reduce)思考: MapReduce中hadoop服务帮我们完成了什么???

2024-04-29 19:58:22 437 1

原创大数据学习笔记11-Hadoop基础2

由于官网给我们的是最大化编译,在linux windows 和 mac平台中都能够运行,但是在linux运行时,与windows和mac相关的代码会报警告,在windows 和mac运行时一样。在hdfs中创建文件夹：/itcast/bigdata，将/itcast/itheima/hosts文件复制到/itcast/bigdata内。注意: 在hdfs中使用任何文件或目录,要使用绝对路径进行查找,在hdfs中没有工作目录的概念,更没有相对路径的概念.

2024-04-29 19:56:04 751 1

原创大数据学习笔记10-Hadoop基础1

大数据主要解决海量数据的存储和计算海量数据大数据 PB,EB（海量数据） 1PB=1024TB大数据的特点数据量大数据种类多结构化数据表半结构化数据xmljson非结构数据文本数据数据低价值密度分析用户的消费习惯用户注册基本信息姓名，性别，年龄 1个用户的购买信息订单数据手机，2023-10-22 100个用户浏览信息浏览哪些商品 100个用户访问信息访问网站时间，地点，设备 100000条1000201条数有价值的数据200条增长速度快。

2024-04-07 20:55:12 762

原创大数据学习笔记9-ETL工具kettle的使用

数据库: mysql 对于数据进行增删改查操作,一般都是业务数据库需要数据高速处理,及时响应对数据的安全性有极高的要求数据内容,数据形式比较单一.数据库一般是app或者用户通过接口访问.数据仓库: 一般是用于数据分析的数据集中平台将多重数据源(业务数据库, 日志信息, 备份文件,爬虫文件,问卷调查等)的数据集中存放在数据仓库中,便于分析统计数据仓库更加重视的是数据的吞吐量.对及时响应和高效读写没有太高的要求.数据仓库一般是数据业务人员使用。

2024-03-28 21:03:09 792 1

原创大数据学习笔记8-Mysql高级2

- 注意1: 可以使用中文进行别名的赋值么?-- 步骤3: 将第一步与第二步的内容结合, 使第一步的sql语句为第二步的子查询语句。-- 格式 : 在from 后的表名后添加 as 别名表名 as 别名。-- 子查询的结果,可以给外部查询语句使用 ----- 子查询语句先执行。-- 子查询是一个完整的查询语句,如果子查询异常,整个查询语句将报错.-- 作用 : 可以让我们使用表时,用更加简便的表名调用表中的字段。-- 注意1: 给表起别名后, 原始的表名将无法继续使用。

2024-03-28 20:12:30 837 1

原创大数据学习笔记7-Mysql高级

- 完整格式 : select 分组字段, 聚合函数 from 表名 where 分组前筛选条件 group by 分组字段 having 分组后筛选条件 order by 排序规则 limit m , n;-- 规则: 保留右表中的全部数据, 和左表中与右表连接成功的数据, 其余数据不保留. 右表中连接不成功的部分补充null。-- 规则: 左表和右表中的数据, 按照指定的规则进行连接, 连接成功则保留, 连接失败则不保留.

2024-03-23 21:27:10 870

原创大数据学习笔记6-Mysql进阶

约束就是我们存储数据的规则,满足这个规则,就可以存储,不满足这个规则就无法存储。

2024-03-20 21:17:05 1015 1

原创大数据学习笔记5-Mysql基础

思考：为什么要使用MySQL存储数据，能不能使用txt 或者 excel 存储？？？excel:存储不高效，并且对于数据量较大的文件打开都很困难txt：不能保证数据的一致性和完整性。（不能设置规则）MySQL优势：理论上可以存储千万条级别的数据记录，但是开发中为了高效性存储上限可能会降低。语法简单，便于学习，快速推广有多种语言api， Python ， java ， php ， js ， go支持多重平台 windows mac linux支持结构化数据（

2024-03-19 21:56:06 856

原创大数据学习笔记4-linux常用命令2

我们可以简单的理解为就是正在运行的软件, 一般一个软件最少有一个进程,但是可以有多个.例如我们再windows如果软件异常,无响应,无法退出无法操作,我们可以直接打开任务管理器结束进程。

2024-03-17 21:16:01 1097

原创大数据学习笔记3-Linux常用命令1

路径就是我们从根目录,盘符或者指定位置,查找到目标文件所经历的目录层级.现实路径的描述方式:中国北京市昌平区回龙观东大街 xxx校区 x号楼 x单元.... 绝对路径从当前位置触发,向前行驶五公里,左转向前行驶4公里,掉头...... 相对路径计算机中路径的描述方式绝对路径: 从根目录或者盘符出发,直到查找到目标文件所经历的目录层级相对路径: 从当前目录出发,直到查找到目标文件所经历的目录层级。

2024-03-16 21:42:10 988

原创大数据学习笔记2

不能使用D:/这种方式,因为我安装的文件我希望他统一进行管理 ,这样的安装方式会将零散文件安装在顶级目录下，路径该是 D:/SoftWare/VMware。超级管理员的家目录, 每个linux系统默认有且只有一个超级管理员用户,拥有该操作系统的一切权限,也是最高权限.解压单机模式的虚拟机,并移动到特定目录下统一管理, 建议: D:/虚拟机目录/node1。在linux 操作系统中,没有盘符的概念, 都是从根目录开始进行拆分的。点击虚拟机列表中出现的node1, 在右侧的窗口中,点击开启此虚拟机。

2024-03-14 21:37:30 884

原创大数据学习笔记1

知识点1：什么是大数据大数据解决的就是海量数据的存储问题,和海量数据的计算问题大数据的特点: 大多值快信知识点2：大数据的应用场景大数据已经在我们生活中的方方面面都应用了,但是正常人无感知知识点3：大数据学习路线知识点4：计算机入门知识点5：Linux系统概述

2024-03-13 21:28:44 395

MU2377的博客