#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2021/12/31 15:01
# @Author : @linlianqin
# @Site :
# @File : paths.py
# @Software: PyCharm
# @description:
import os
abs_path = os.path.dirname(__file__)
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2021/12/31 13:29
# @Author : @linlianqin
# @Site :
# @File : dataProcess.py
# @Software: PyCharm
# @description:
'''
从excel中加载数据集
2-271751:0
271752-714002:1
714003-1022609:2
1022610-1048576:3
等级为0数据集:271750
等级为1数据集:442250
等级为2数据集:308606
等级为3数据集:25966
取100000数据集作为训练数据
等级为0数据集:25000
等级为1数据集:25000
等级为2数据集:25000
等级为3数据集:25000
'''
from pandas import read_excel, DataFrame
import numpy as np
from sklearn import model_selection
# 加载模型
def loaddatasets(xlsPath):
data = read_excel(xlsPath, None) # 读取数据,设置None可以生成一个字典,字典中的key值即为sheet名字,此时不用使用DataFram,会报错
sheetNames = data.keys() # 获取所有sheet的名称
for sheetName in sheetNames:
pd_data = DataFrame(read_excel(xlsPath, sheetName)) # 获得每一个sheet中的内容
# print(np.array(sh_data))
# 将panda对象转换为numpy.array数组形式
np_data = np.array(pd_data)
# 去掉表头
np_data = np_data[1:, :]
# 指标:第1-16列; 等级: