数据挖掘第六周周报

  • 数据挖掘第流周周报
  • 1、本周工作
    • 本周主要是添加了PLA线性感知算法python版本,打算与神经网络、,KNN一起对数据处理,对测试集进行了分类,但是由于在PLA分类中,对于数据量太大的情况,对于PLA的权值更新有很大的阻碍,迟迟没办法收敛,我现控制一下权值迭代的次数,但是多次下来发现耗时太大,效果也不好,所以暂时没有用PLA作为分类。
  W=np.ones(cols)#initial all weight with 1
  count=0
  while True:
      count+=1
      iscompleted=True
      for i in range(0,length):
          X=dataset[i][:]
          print("X = ")
          print(X)
          Y=np.dot(W,X)#matrix multiply
          print("sign(Y) = ")

          if sign(Y)==sign(isDefault[i][-1]):
              print(sign(Y))
              print(sign(isDefault[i]))
              continue
          else:
              iscompleted=False
              W=W+(dataset[i][0])*np.array(X)
      if iscompleted:
          break
  print("final W is :",W)
  print("count is :",count)
  return W

放弃了PLA算法以后,我又把目光放在了数据集上,想着皮尔斯相关系数,最大信息系数什么的可以帮我搞定一下特征选取,优化数据,但是皮尔斯在我手里好像也不靠谱
在这里插入图片描述
得到的皮尔斯相关系数都是小的可怜,好像表明都没有什么相关性。

2、上课学到的L1正则表达式不是很会,还在试用中

3、最后遇到的问题就是验证集上的结果与实际rank差距有点大,L1正则表达式不太会,学的几个特征方法选取也不太好用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值