大数据分析: Week 3 对大数据量的资源管理和分析查询

本文介绍了大数据资源管理和分析查询,对比了OLTP和OLAP的概念数据模型,深入探讨了数据库架构,特别是并行查询处理。接着详细讲解了Google的Big Table、HBase和Hive的特性与应用场景,以及Spark SQL和Pig在Hadoop上的作用,帮助理解不同工具在大数据处理中的适用性。
摘要由CSDN通过智能技术生成

对大数据量的资源管理和分析查询

概念数据模型

1.OLTP 概念数据模型

  • 在线事务处理
  • 特点是大量的短在线事务(插入、更新、删除)
  • 其重点在于非常快速的查询处理、在多访问环境中保持数据完整性和以每秒事务数衡量的有效性

举例: ATM POS

2.OLAP概念数据模型

  • 在线分析处理
  • 目标是支持业务分析师的临时查询
  • 业务分析师熟悉电子表格
  • 扩展电子表格分析模型以处理仓库数据
  • 多维数据视图是OLAP的基础
    3.OLTP vs OLAP

线交易处理(OLTP):–用于在运营或交易系统(例如销售点系统)上执行更新的技术

在线分析处理(OLAP):–用于对数据仓库中的数据执行复杂分析的技术。OLAP是一类软件技术,可以使分析师、经理和高管来洞察数据快速、一致、交互访问各种可能的观点的信息从原始数据的维数来反映企业用户所理解。

在这里插入图片描述

数据库架构

1.并行查询处理

结构化查询语言:SQL

•声明性查询语言
•语言的多个方面

  • 数据定义语言:创建,修改表和视图的声明
  • 数据操作语言:发出查询,插入,删除数据的声明
    SQL:
SELECT <Attributes>
FROM 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
交通大数据分析是一个复杂而实用的领域,课程设计通常会涉及到数据采集、预处理、分析模型以及可视化展示等多个环节。以下是一个简化的交通大数据分析课设代码示例框架: ```python # 导入必要的库 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans from geopy.distance import great_circle # 1. 数据获取与预处理 def load_data(filename): df = pd.read_csv(filename, parse_dates=['timestamp']) # 处理缺失值,标准化时间戳,可能需要提取地理信息(经纬度) df['distance'] = great_circle(df['origin'], df['destination']).km return df # 2. 数据清洗和特征工程 def preprocess_data(df): df['hour'] = df['timestamp'].dt.hour df['day_of_week'] = df['timestamp'].dt.dayofweek # 其他特征提取如天气条件、季节等 return df.dropna() # 3. 数据分析 def traffic_analysis(df): scaled_df = StandardScaler().fit_transform(df[['distance', 'hour', 'day_of_week']]) kmeans = KMeans(n_clusters=4) # 假设我们用4个簇进行聚类 kmeans.fit(scaled_df) clusters = kmeans.labels_ # 分析各集群的特性,比如高峰时段、交通流等 # 4. 结果可视化 def visualize_results(df, clusters): plt.scatter(df['distance'], df['hour'], c=clusters) plt.xlabel('Distance') plt.ylabel('Hour') plt.title('Traffic Patterns by Clusters') plt.show() # 主函数 def main(): data = load_data('traffic_data.csv') cleaned_data = preprocess_data(data) analysis = traffic_analysis(cleaned_data) visualize_results(cleaned_data, analysis) if __name__ == '__main__': main() ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值