数据分析
Rhett001
这个作者很懒,什么都没留下…
展开
-
数据分析学习——第五天
数据分析学习:泰坦尼克号实战模型搭建特征工程#缺失值的处理data['Cabin'] = data['Cabin'].fillna('NA')data['Embarked'] = data['Embarked'].fillna('S')print(data.info())data['Age'] = data['Age'].fillna(data['Age'].mean())datax = data[['Pclass','Sex','Age','SibSp','Parch','Fare',原创 2020-08-28 16:41:33 · 177 阅读 · 0 评论 -
数据分析学习——第四天
数据分析学习:泰坦尼克号实战数据可视化男女中生存人数分布sex = data.groupby('Sex')['Survived'].sum()sex.plot.bar()plt.title('survived_count')plt.show()由图可以看出女性比男性的生存人数要多不同票价的人生存和 死亡人数分布情况fare_sur = data.groupby(['Fare'])['Survived'].value_counts().sort_values(ascending=Fals原创 2020-08-25 16:32:44 · 211 阅读 · 0 评论 -
数据分析学习——第三天
数据分析学习:泰坦尼克号实战数据重构数据的合并text_left_up = pd.read_csv("data/train-left-up.csv")text_left_down = pd.read_csv("data/train-left-down.csv")text_right_up = pd.read_csv("data/train-right-up.csv")text_right_down = pd.read_csv("data/train-right-down.csv")用conc原创 2020-08-23 19:26:20 · 178 阅读 · 0 评论 -
数据分析学习——第二天
数据分析学习:泰坦尼克号实战pandas基础DateFrame和Series类型x= {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}y= pd.Series(x) #创建一个Seriesprint(y)w= {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 20原创 2020-08-21 21:20:50 · 191 阅读 · 0 评论 -
数据分析学习——第一天
数据分析学习:泰坦尼克号实战数据加载一、导入数据1.导入numpy和pandasimport numpy as npimport pandas as pd2.根据不同的文件进行读取常用函数:pd.read_csv(‘路径’)data=pd.read_csv('D:/shujv/代码/59024 scikit-learn机器学习源码_20181031/_/code/datasets/titanic/train.csv')其他文件名的思路也一样注意pd.read_csv()的默认分隔原创 2020-08-19 22:32:28 · 138 阅读 · 0 评论