华为大数据-CSDN博客

使用的文件一、解析文件1、导入插件，并可以显示中文import pandas as pd import numpy as np import matplotlib.pyplot as plt #用来显示中文标签 plt.rcParams['font.sans-serif'] = ['SimHei']#用来正常显示负号 plt.rcParams['axes.unicode_minus'] = False2、读取文件#1 获得数据data = pd.read_excel("

2022-04-07 11:31:12 1878

原创 4Pandas统计分析基础二

1、groupby方法groupby方法可以根据索引或字段对数据进行分组。格式为：DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)import pandas as pdimport numpy as np df = pd.DataFrame({'key1':['a','a','b','b','a'],'k

2022-04-07 11:07:42 1345

原创 Pandas统计分析基础一

一、Pandas概述注释：段落注释""""""单行注释：#快捷键注释：选中要注释的行 ctrl+/ (取消注释同理)Pandas（Python Data Analysis Library）是基于NumPy的数据分析模块，它提供了大量标准数据模型和高效操作大型数据集所需的工具，可以说Pandas是使得Python能够成为高效且强大的数据分析环境的重要因素之一。安装pandas的第三方包如果安装pandas失败，可以先装下pip，如下图导入方式：import

2022-04-07 10:13:36 2198

原创 NumPy数值计算基础

NumPy数值计算基础1、利用array函数创建数组对象array函数的格式：np.array(object, dtype,ndmin)import numpy as np data1 = [1,3,5,7] w1 = np.array(data1)print('w1',w1) data2 = (2,4,6,8) w2 = np.array(data2) print('w2',w2) data3 = [[1,2,3,4],[5,6,7,8]]w3 = np.array(dat

2022-03-17 11:39:55 2633

原创 HBase技术原理

HBase的介绍存储海量的，任何数据类型byte[](可以存任何数据类型)，低延时，随机访问，处理海量数据，面向列的数据库，实时读写的分布式数据库系统。实时计算：flink spark有关Hbase是以HDFS为底层的数据存储，也是依赖于MapReduce作计算。不支持join 以字节数组（byte[]）来存储数据设置稀疏，null的列，不占存储空间HBase表的结构Rowkey 行键列族（簇）包含一组列，注：列族不能设置太多。时间戳：不同的版本，由近及远查询数据..

2022-03-17 11:02:41 164

原创 Zookeeper的作用及命令行操作

Zookeeper的作用及命令行操作Zookeeper是什么1、ZooKeeper由雅虎研究院开发，是Google Chubby的开源实现，后来托管到Apache，于2010年11月正式成为Apache的顶级项目。2、ZooKeeper是一个经典的分布式数据一致性解决方案（基于Paxos算法），致力于为分布式应用提供一个高性能、高可用，且具有严格顺序访问控制能力的分布式协调服务。3、Zookeeper的核心是原子广播，这个机制保证了各个server之间的同步。实现这个机制的协议叫做Zab协议。

2022-01-17 16:01:45 1703

原创 MapReduce和Yarn技术原理

MapReduce和Yarn技术原理一、MapReduce概述MapReduce基于Google---MapReduce论文设计开发基于函数式（mapper和reducer）编程的思想，用于大规模数据集(大于1TB) 的并行计算和离线计算，特点：（1）函数式编程：程序员仅需描述做什么，具体怎么做交由系统的执行框架处理。（2）良好的扩展性：可通过添加节点以扩展集群能力。（3）高容错性：通过计算迁移或数据迁移等策略提高集群的可用性与容错性二、MapReduce工...

2022-01-17 15:58:51 1080

原创 02 HDFS 文件读写代码详解

core-site.xml hdfs-site.xml新建一个JAVA项目在项目上添加jar包添加你安装的hadoop目录下的hdfs-hadoop-share—common(lib )和hdfs(lib)（即common和hdfs下的所有jar包）添加两个配置文件到项目的src目录下（配置文件在新建项目添加jar包 username—client---hdfs-hadoop-share—common(lib )和hdfs(l...

2021-12-23 11:20:36 2786

原创 02HDFS分布式文系统

一、HDFS分布式文件系统概述Hdfs Hadoop Distrabuted File System 分布式文件系统分布式：二、HDFS特点：海量数据存储（GB,TB,PB级的数据）1MB=1024KB 1 GB=1024MB高容错性：默认保存副本（3个），当一份数据丢失时，可以恢复数据，hdfs内部机制实现的。数据冗余高延时不适合场景：低延时：不适合存放大量小文件多用户输入，不适合做任意修改。三、HDFS的基本架构由三部分组成(Client...

2021-12-22 20:05:55 1099

原创 01大数据概述

大数据概述大数据解决了什么问题：海量数据存储和海量数据分析数据量越来越大，海量数据的存储解决了数据的计算：分而治之Hdoop和大数据的关系大数据平台是：Apache开发的的分布式系统，是java 、语言写的，分布式平台，适合海量数据分布式存储和计算的平台总结：大数据是时代发展的产物，而Hadoop是一种处理大数据的技术手段。大数据4V特性规模性（Volume）海量数据高速性（Velocity）要求速度快多样性（Veriety）(数据多种多样，结构化数据（mysql s..

2021-12-21 16:42:55 900

随心发挥

原创【华为ICT大赛2022-2023-----云赛道】实验沙箱-注意事项-实验坑

原创华为大数据HCIP认证（HCIP-Big Data Developer V2.0）考试大纲

原创【2022-2023】华为ICT大赛实践赛——计算赛道，针对华为认证考取、考试题目类型、电脑端适配等问题问答

原创【华为ICT大赛2022-2023-----云赛道】加分项-沙箱实验流程及实验步骤

原创 Python数据分析及可视化之Pyecharts可视化1

原创 Python数据分析及可视化之Seaborn可视化-实训2

原创 Python数据分析及可视化之Seaborn可视化-实训

原创 Python数据分析及可视化之Seaborn可视化

原创 Matplotlib数据分析可视化-实训

原创 Matplotlib数据分析可视化基础

原创 Pandas数据载入与预处理

原创 BigData-初级考试题

原创 4Pandas统计分析小实训

原创 4Pandas统计分析基础二

原创 Pandas统计分析基础一

原创 NumPy数值计算基础

原创 HBase技术原理

原创 Zookeeper的作用及命令行操作

原创 MapReduce和Yarn技术原理

原创 02 HDFS 文件读写代码详解

原创 02HDFS分布式文系统

原创 01大数据概述

4Pandas统计分析实训用的素材

apache-tomcat5 jsp web服务器

datagridview实例

空空如也