![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
动手学数据分析
PassionXxt
这个作者很懒,什么都没留下…
展开
-
Task05:数据建模及模型评估
import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常原创 2020-08-28 23:16:55 · 250 阅读 · 0 评论 -
Task04:数据可视化
开始前导入包和数据:# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as plttext = pd.read_csv(r'result.csv')text.head()1.如何让人一眼看懂你的原创 2020-08-26 11:46:05 · 212 阅读 · 0 评论 -
Task03:数据重构
# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvtext = pd.read_csv('./data/train-left-up.csv')text.head()1.数据的合并1.1 将data文件夹里面的所有数据都载入,与之前的原始数据相比,观察他们的之间的关系text_left_up = pd.read_csv("data/train-left-up.csv")text_left_d原创 2020-08-23 22:58:08 · 137 阅读 · 0 评论 -
Task02:数据清洗及特征处理
开始之前导入numpy和pandas包和数据:#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvdf = pd.read_csv('train.csv')1.缺失值观察与处理1.1 缺失值观察(1) 请查看每个特征缺失值个数(2) 请查看Age, Cabin, Embarked列的数据#方法一df.info()#方法二df.isnull().sum()df[['Age','Cabin','Embarked']]原创 2020-08-21 21:30:30 · 164 阅读 · 0 评论 -
Task01:数据加载及探索性数据分析
1.载入数据1.1 导入numpy和pandasimport numpy as npimport pandas as pd1.2 载入数据df = pd.read_csv('train.csv')df.head(3)1.3 逐块读取数据(每1000行为一个数据模块)chunker = pd.read_csv('train.csv', chunksize=1000)1.4 将表头改成中文,索引改为乘客IDdf = pd.read_csv('train.csv', names=['乘客原创 2020-08-19 18:35:56 · 428 阅读 · 0 评论