kaggle创始人为Anthony毕业于墨尔本大学,于2010年在创立kaggle, 现在被google收购, 现在有100多万活跃用户。
- 学习kaggle平台如何参加比赛, 如何提交项目
- 练习Titanic - Machine Learning from Disaster
泰坦尼克号项目主要是通过一个train.csv文件提供的基础数据,预测test.csv文件中测试数据集的准确性, 然后把预测结果保存到gender_submission.csv提交。
import pandas as pd
train_data = pd.read_csv('titanic/train.csv')
pandas是数据科学库, 和numpy处理矩阵类似, 主要用于处理表格, 相当于一个可编程的excel, 方便处理数据.
按照惯例缩写为pd
所以一般语法:
import pandas as pd # 引入pandas库, 由pd代替
读取文件:一般pandas读取的文件为csv, 也有excel和text文件, 语法一样。
train_data = pd.read_csv('titanic/train.csv') # titanic是上级文件夹
train_data变量名用于保存读取的文件内存
type(train_data)
pandas.core.frame.DataFrame
DataFrame是pandas的数据保存方式, 就是一个数据表格
一下语法可以制作表格:
pd.DataFrame({
'Yes': [1, 2], 'No': [3, 4]})
可见, pandas可以制作漂亮的表格, DataFrame为制表方法, 字典中的key为column, 代表列的项目名, value用list表示, 代表每一列的具体内容, DataFrame自动加索引。
train_data.head() # 默认读取前五行。