山东大学实训 Day7

隔了好几天,一方面准备保研,一方面因为和老师商讨的结果一直没下来,老师还在找别的数据集

数据量实在太少了,老师建议我先做个二分类,把每科成绩在后15%的认定为有不及格风险的人,看看效果。

我现在只做了svm,今天上午面试来着。

from __future__ import division
import time
import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import learning_curve
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import metrics
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score  # 交叉检验
from sklearn.metrics import precision_score,f1_score,recall_score,accuracy_score
import os
file=[]
for root,dirs,files in os.walk('data'):
    for name in files:
        file.append(os.path.join(root, name))
cnt=0
for f in file:
    if f=='data/.DS_Store':
        continue
    
    data=pd.read_csv(f,header=None,index_col=0)
    #排名后15%的定为1
    data['passed']=0#及格
    data=data.sort_values(by=23,ascending=True,axis=0)
    length=len(data)
    unpassed=int(0.15*length)
    data.iloc[:unpassed+1,-1]=1
    
    data=data.iloc[:,3:]
    data=data.ix[:,~(data==0).all(axis=0)]
    
    data=data.sample(frac=1)
    
    dataset=np.array(data)
#dataset=np.loadtxt(dir)
    index=int(dataset.shape[0]*0.8)
    X_train=dataset[:index,:-1]
    y_train=dataset[:index,-1]
    X_test=dataset[index:,:-1]
    y_test=dataset[index:,-1]
 




    
    model_names = ['svm']  # 不同模型的名称列表
    model_svm=SVC(kernel='rbf')
    model_dic = [model_svm]  # 不同回归模型对象的集合
    cv_score_list = []  # 交叉检验结果列表
    pre_y_list = []  # 各个回归模型预测的y值列表


    for model in model_dic:  # 读出每个回归模型对象
        scores = cross_val_score(model, X_train, y_train, cv=5)  # 将每个回归模型导入交叉检验模型中做训练检验
        cv_score_list.append(scores)  # 将交叉检验结果存入结果列表
        pre_y_list.append(model.fit(X_train, y_train).predict(X_test))  # 将回归训练中得到的预测y存入列表

    model_metrics_name = [accuracy_score, precision_score, recall_score, f1_score]  # 回归评估指标对象集
    model_metrics_list = []  # 回归评估指标列表
    for i in range(1):  # 循环每个模型索引
        tmp_list = []  # 每个内循环的临时结果列表
        for m in model_metrics_name:  # 循环每个指标对象
            tmp_score = m(y_test, pre_y_list[i])  # 计算每个回归指标结果
            tmp_list.append(tmp_score)  # 将结果存入每个内循环的临时结果列表
        model_metrics_list.append(tmp_list)  # 将结果存入回归评估指标列表

    df2 = pd.DataFrame(model_metrics_list, index=model_names, columns=['acc', 'precision', 'recall', 'f1'])  # 建立回归指标的数据框
    print('='*10,f,'='*10)
    print(data)
    print('#'*50)
    print(df2)
    print('='*50)
    print('\n')

    

昨天准备面试的时候小伙伴们问我应不应该换数据集,我有点打算找找天池数据集弄了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值