动手学习数据分析第一章内容

91020203

已于 2023-01-17 18:04:11 修改

阅读量193

点赞数

文章标签：学习数据分析数据挖掘 Powered by 金山文档

于 2023-01-16 17:46:10 首次发布

本文链接：https://blog.csdn.net/u010651973/article/details/128706888

版权

所想：所有的内容都是新的，之前没有接触过Markdown等内容，因此不清楚如何编辑文档，不知道如何将编辑的文档上传到网站上，一步一步来，总会有收获的，每天打卡也算是给自己一个鞭策，有点压力，尽量完成，软件、语言、编辑熟练了就好了，一定会有收获的。

我下载了MarkdownPad2编辑文档，因为看CSDN网站介绍，似乎可以直接载入md文件到网站上形成博客，上传到GitHub的方式慢慢再尝试。我将学习大纲复制到MarkdownPad2文档里，然后写上自己的注释，这样既能熟悉Markdown的编辑格式和命令，也能在学习过程中记录自己的问题和思考。

这门课的主要目的：这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。

这里有两份资料：

教材《Python for Data Analysis》和 baidu.com &

google.com（善用搜索引擎）

所想：这门课注重实战分析，基于真实数据项目让学习者对程序、算法以及编辑软件进行训练，了解了kaggle这个网址，（注册过程中没法显示验证码，数据没法下载，幸好课程包里有数据）。提到了教材《Python for Data Analysis》，队长给了电子版，边学边看边练。搜索引擎也很重要，但是上google要用vpn，之前也没用过，感觉大家全都会，自己确实太落伍了。

1 第一章：数据载入及初步观察

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 任务一：导入numpy和pandas

import numpy as np

import pandas as pd

【提示】如果加载失败，学会如何在你的python环境下安装numpy和pandas这两个库

所想：numpy和pandas是python数据分析必备的两个程序包，在调用之前，要进行载入。这两个程序包都有官方文档，pandas也有中文的文档，对于新手比较友好，在文档里面介绍了如何调用程序包中的各个命令以及可以实现何种功能，以下的一些命令都是基于这两个包进行的。感觉Python的包有点像MATLAB里的工具箱，只是调用命令时，需要先载入包，然后在命令前面加上包的名字进而实现功能。MATLAB则直接调用命令就可以了。

1.1.2 任务二：载入数据

(1) 使用相对路径载入数据

(2) 使用绝对路径载入数据

df=pd.read_csv(train.csv)

所想：以上是相对路径，相对路径就是把数据下载到当前目录下，然后直接用文件名载入。

import os

path=os.path.abspath('train.csv')

df=pd.read_csv(path)

所想：以上是绝对路径。这里，在载入绝对路径的时候，首先要载入另外一个包OS，这个包可以找到数据下载硬盘中的位置，如果把这个位置存起来，那么就可以根据这个路径载入数据。这两个程序实现的功能都是一样的，df就是我们数据，df表示dataframe，也就是数据框。

【提示】相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。

所想：os.getcwd()命令返回当前目录。需要说明的是，当前目录并不是指脚本所在的目录，而是所运行脚本的目录。同时，在python中可以使用os.listdir()函数获得指定目录中的内容。例如

os.listdir(path)

参数path为要活得内容目录的路径，不指定path则默认当前目录。也可以讲两个命令结合起来，如：

import os

print os.listdir(os.getcwd())

（好像无法实现？回头再看一下）

【思考】知道数据加载的方法后，试试pd.read_csv()和pd.read_table()的不同，如果想让他们效果一样，需要怎么做？了解一下'.tsv'和'.csv'的不同，如何加载这两个数据集？

所想：TSV 是Tab-separated values的缩写，即制表符分隔值。相对来说CSV，Comma-separated values（逗号分隔值）更常见一些。将rread_table的分隔符改为，即pd.read_table(path,sep=',')则和read_csv的效果一样

【总结】加载的数据是所有工作的第一步，我们的工作会接触到不同的数据格式（eg:.csv;.tsv;.xlsx）,但是加载的方法和思路都是一样的，在以后工作和做项目的过程中，遇到之前没有碰到的问题，要多多查资料吗，使用googel，了解业务逻辑，明白输入和输出是什么。

1.1.3 任务三：每1000行为一个数据模块，逐块读取

【思考】什么是逐块读取？为什么要逐块读取呢？

所想：使用pandas来处理文件的时候，经常会遇到大文件，而有时候我们只想要读取其中一部分或对文件进行逐块处理。通过nrows参数，来设置读取文件的前多少行

data = pd.read_csv("train.csv",nrows=5)

【提示】大家用chunker(数据块)是什么类型？用for循环打印出来出处具体的样子是什么？

所想：这里没怎么听懂，似乎用chunker会改变数据的类型，由原先的dataframe变成了textfilereader，这里还是要对两个数据读取之后的类型进行了解。后面再看书试验一下，视频用的df.get_chunk()读取，但是我没实现聊，再看一下，可能是因为读取数据的时候没有用chunksize参数。