数据元、元数据、数据源、源数据

1、数据元

定义:数据元是数据库、文件和数据交换的基本数据单元

作用:为了使数据在不同的应用环境中可以进行交换,为了能够交换,按要求进行共同约定规则,进行统一的组织,分类和识别它们。

简单粗暴的概述:就是为了一致性

数据元的组成:

1、对象:将现实世界的物体,进行抽象的概念,例如:在Java程序编程语言中,一切物体皆为对象;

2、特征:是指对象,它们具有的相同的共同特征;

3、表示:任何物体发生变化时,都可以使用不同的表示,例如:字段值域;

2、元数据

定义:元数据是描述关于数据的数据,为了信息在异构系统之间实现语义互操作性的基础。

作用:为了实现数据标准化的目的。

简单粗暴的概述:就是为了标准化

元数据标准化包括:

1、信息对象:可以是单一的文本、目录、图像、数值型数据以及多媒体(声音、图片、视频);

2、元数据体系:是指导元数据的元数据,形成一个层次分明,结构开放的元数据体系;

元数据按类型划分:

1、业务元数据:例如;用户范围、业务规则、逻辑规则等等;

2、技术元数据:例如:在数据库中的表名、字段名、字段类型、字段长度等等;

3、管理元数据:例如:管理元数据的加工、存档、结构、存取、版本控制权等等的问题;

3、数据源

定义:是指数据的来源

作用:描述数据的来源,属于基本含义,没有多意性。

举一个例子:抖音、淘宝推送信息给你,根据你观看、或停留的视频、购物进行推送下一条视频、物品等等,在这里,观看内容,和浏览的记录就是数据的来源。

4、源数据

定义:是指源头的数据,原始未被加工,或未被处理的数据,也叫生数据(香港同事喜欢叫“Raw Data”)。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 安装Hive和Hadoop 在Pyspark中连接Hive之前,需要安装Hive和Hadoop。可以参考官方文档进行安装。 2. 配置Hive元数据 在Pyspark中连接Hive,需要先配置Hive元数据。可以在Hive的配置文件中设置元数据的连接信息。在Hive的配置文件hive-site.xml中添加以下属性: ``` <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=true</value> <description>metadata store connection URL</description> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> <description>metadata store driver class name</description> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> <description>metadata store username</description> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>hive</value> <description>metadata store password</description> </property> ``` 上述配置文件中的属性值需要根据实际情况进行修改。 3. 连接Hive元数据 在Pyspark中,可以使用HiveContext或者SparkSession来连接Hive元数据。以下是使用HiveContext连接Hive元数据的示例代码: ```python from pyspark.sql import HiveContext hiveContext = HiveContext(sparkContext) ``` 在连接Hive元数据之后,就可以通过HiveContext来执行Hive SQL语句或者查询Hive表了。例如: ```python hiveContext.sql("show tables") ``` 4. 使用SparkSession连接Hive元数据 除了使用HiveContext连接Hive元数据之外,还可以使用SparkSession来连接Hive元数据。以下是使用SparkSession连接Hive元数据的示例代码: ```python from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("example") \ .config("spark.sql.warehouse.dir", "/user/hive/warehouse") \ .enableHiveSupport() \ .getOrCreate() ``` 在连接Hive元数据之后,就可以通过SparkSession来执行Hive SQL语句或者查询Hive表了。例如: ```python spark.sql("show tables") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值