- 数据挖掘第流周周报
- 1、本周工作
- 本周主要是添加了PLA线性感知算法python版本,打算与神经网络、,KNN一起对数据处理,对测试集进行了分类,但是由于在PLA分类中,对于数据量太大的情况,对于PLA的权值更新有很大的阻碍,迟迟没办法收敛,我现控制一下权值迭代的次数,但是多次下来发现耗时太大,效果也不好,所以暂时没有用PLA作为分类。
W=np.ones(cols)#initial all weight with 1
count=0
while True:
count+=1
iscompleted=True
for i in range(0,length):
X=dataset[i][:]
print("X = ")
print(X)
Y=np.dot(W,X)#matrix multiply
print("sign(Y) = ")
if sign(Y)==sign(isDefault[i][-1]):
print(sign(Y))
print(sign(isDefault[i]))
continue
else:
iscompleted=False
W=W+(dataset[i][0])*np.array(X)
if iscompleted:
break
print("final W is :",W)
print("count is :",count)
return W
放弃了PLA算法以后,我又把目光放在了数据集上,想着皮尔斯相关系数,最大信息系数什么的可以帮我搞定一下特征选取,优化数据,但是皮尔斯在我手里好像也不靠谱
得到的皮尔斯相关系数都是小的可怜,好像表明都没有什么相关性。
2、上课学到的L1正则表达式不是很会,还在试用中
3、最后遇到的问题就是验证集上的结果与实际rank差距有点大,L1正则表达式不太会,学的几个特征方法选取也不太好用