一、线性回归:
机器学习步骤:提出问题→理解数据→清洗数据→构建模型→评估→方案
三种线性相关:正线性相关、负线性相关、非线性相关
特征和标签:特征为自变量,标签为因变量
相关性程度:相关性方向(正、负),相关性大小
相关系数r=x和y的协方差/(x的标准差*y的标准差)
rdf=examDf.corr() 相关系数
最佳拟合线:y=a+bx 最大程度涵盖所点的一条线
model.score(Xtest,y_test) 决定系数R平方
二、逻辑回归
训练数据和测试数据:train,test:train用来构建模型,test用来检验模型正确率,
二分分类:逻辑回归,y>=0.5,特征为1,y<0.5 特征为0
三种数据类型:数值数据(定量):分类数据(定性):时间序列数据(变化趋势)
分类和回归的区别:输出类型:离散和连续,结果:决策面和最优拟合线,评估指标:正确率和决定系数R平方
三、泰坦尼克案例
pandas:read_csv(),shape,append,describe(),info(),head()
fillna,特征提取:定义函数,map函数,
one-hot get_dummies,prefix,
cabinDf=pd.get_dummies,完成后需concat