DW数据分析第二课

数据分析第二课

  • 逐块读取:每1000行为一个模块读取数据
chunker =pd.read_csv('train.csv',chunksize=1000)

思考:逐块读取主要应对数据量特别大的,一次性全部读取,服务器是吃不消,所以就有必要使用分块读取;

  • 将表头改为中文
df = pd.read_csv('train.csv', names=['乘客ID', '是否获救','舱位等级','姓名', '性别', '年龄', '兄弟姐妹个数', '父母子女个数', '船票号码', '票价', '客舱号', '登船港口'], index_col='乘客ID', header=0)
df.head()

index_col 设置作为序列的列
hearer 设置作为表头的行

  • 初步观察:查看数据基本的统计特征
df.info

将数据全部罗列出来,而没有格式

df.info()

将数据的基本信息输出,是否有空值;

  • 着重查看数据中是否有空值;
df.isnull()

输出全部数据,为空的地方标记为true;
也可以只输出部分行;

df.isnull().head()
  • 保存数据
df.to_csv('train_chinese.csv')

小结

非常非常基础的小部分学完了~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分层是指将数据按照不同的层级进行组织和管理的过程。在数据分层中,常见的层级有ODS层(数据运营层)、DW层(数据仓库层)和DM层(数据集市层)。 ODS层是数据分层的第一层,也称为数据运营层。在ODS层中,数据进行一定的清洗和处理,例如处理异常字段、统一时间字段格式等。 DW层是数据仓库层,是数据分层的核心设计层。在DW层中,根据主题建立各种数据模型,包括DWD(数据仓库细节层)、DWM(数据仓库中间层)和DWS(数据仓库服务层)。DWD层或者称为ODS层,作为业务层与数据仓库的隔离层,用于屏蔽底层数据的差异。 DM层是数据集市层,可以理解为DW层向DM层的过渡层。在DM层中,数据进行宽表汇总,用于分析某个特定主题领域的服务数据。 数据分层的目的是为了更好地管理数据,提供清晰的数据掌控能力。通过数据分层,我们可以对不同层级的数据进行不同的处理和分析,以满足各种需求。比如,ODS层可以处理数据的规整和清洗,DW层可以按照主题进行组织和建模,DM层可以提供宽表汇总的服务数据。 综上所述,数据分层是将数据按照不同层级进行组织和管理的过程,包括ODS层、DW层和DM层。每个层级都有不同的作用和目的,通过数据分层可以更好地管理和利用数据。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [数据分层/ODS/DW/DM](https://blog.csdn.net/cuiyadll/article/details/124682342)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [数据仓库--通用的数据仓库分层方法?为何分层?ODS/ DW/DWD/DWS/APP](https://blog.csdn.net/u010002184/article/details/113885628)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值