4. 回归分析阶段
因为sklearn封装了大量的函数供我们调用,所以没有特别复杂的逻辑,talk is cheap, show me the code
代码实现
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import metrics
def main():
# 加载数据
data = np.loadtxt('NormalizeData.csv', delimiter=',', dtype=str, encoding='utf-8-sig')
# 取出所有样本
X = data[1:, 1:7].astype(np.float)
# 取出所有样本的标签值
Y = data[1:, 7].astype(np.float).reshape(-1, 1)
# 对样本值进行标准化
scaler_X = StandardScaler().fit(X)
X = scaler_X.transform(X)
# 对样本值标签进行标准化
scaler_Y = StandardScaler().fit(Y)
Y = scaler_Y.transform(Y)
# 实例化线性回归模型
model = LinearRegression()
RMSE_list = []
coef = []
intercept = []
for i in range(10):
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=666) # 划分数据集,其中测试集占30%
model.fit(X_train, Y_train) # 利用训练样本和训练标签进行模型训练
predict = model.predict(X_test) # 根据测试样本做出预测
coef.append(model.coef_) # 求模型的斜率
intercept.append(model.intercept_) # 求模型的截距
RMSE = np.sqrt(metrics.mean_squared_error(Y_test, predict)) # 该值越小越好
RMSE_list.append(RMSE)
idex = RMSE_list.index(min(RMSE_list))
RMSE_min = min(RMSE_list)
print('最小的RMSE:', RMSE_min)
coef1 = coef[idex]
print('RMSE最小对应的模型斜率:', coef1)
intercept1 = intercept[idex]
print('RMSE最小对应的模型截距:', intercept1)
if __name__ == '__main__':
main()
运行结果:
总结
通过本次蛇皮项目的练习,发现在爬虫和数据分析中需要掌握的重要知识点如下:
- json数据格式
- 正则表达式
- numpy、pandas、request
- 字符串相关操作