- 数据挖掘第三周周报
- 1、本周工作
- 本周主要是学习了python在数据挖掘的应用,在本周的学习中,学了 很多关于python的用法,包括对csv文本的读入、对矩阵数据的提取,对矩阵数据的分析、对矩阵列的删减、对矩阵空值的填补与剔除,对数据的归一化和标准化等。
对数据的提取、矩阵的删减:
trainFile = "O:/DataBaseOfPython/train.csv"
testAFile = "O:/DataBaseOfPython/testA.csv"
pwd = os.getcwd()
os.chdir(os.path.dirname(trainFile))
trainData = pd.read_csv(os.path.basename(trainFile))
os.chdir(pwd)
pwd = os.getcwd()
os.chdir(os.path.dirname(testAFile))
testAData = pd.read_csv(os.path.basename(testAFile))
os.chdir(pwd)
isDefault = trainData['isDefault']
testAData = testAData.drop(columns=it1) #删除一些无关列
trainData = trainData.drop(columns=it)
trainData = trainData.dropna(axis=0,how = 'any') #删除存在空值的行
testAData = testAData.fillna(0) #空值置零
testdata = testAData.iloc[0:200000,0:15].values #测试集数据
data = trainData.iloc[0:800000,0:15].values #训练集数据
[rows,cols] = data.shape #训练集维度 行与列
[Trows,Tcols] = testdata.shape #测试集维度 行与列
查看矩阵:
查看特征值:
2、实现了BPNN反向传播神经网络,定义了一个类用于训练训练集的输入层、中间隐藏层、输出层各项权值&