2017.2.16 日课

今天做的事情主要有四:一是继续阅读Low-Rank方面的文章,二是针对对齐的那篇文章进行了进一步的思考,三是写口碑比赛的代码,四是读《菊与刀》。

Low-Rank文章

今天继续了昨天的读论文过程。读到利用Low Rank结构进行Subspace clustering的文章,虽然有很多地方不能理解,但是大体熟悉了整个步骤,明白了这个方法可以用来做什么用。

这种方法首先得到原信号的“关联矩阵”,再对关联矩阵(affinity matrix)应用谱聚类(spectral clustering)的算法例如(NCut),最终得到属于每个子空间的samples。我之前熟悉的唯一聚类方法是K-Means,这种新方法的很多做法都让我觉得不理解,如果想要完全理解,可能还需要去阅读之前许多类似的Subspace clustering相关文章。这里,我只重点看它是如何应用Low-Rank方法的,而忽略了文章的其他部分。

假设 X0=U0Σ0VT0 是一组“纯”的信号(来自几个不同子空间,并且没有Outlier或噪声),那么 V0VT0 应该具有“分块对角”的特性,即只有当第 i 个信号和第j个信号来自同一子空间时,该矩阵的 i,j 元素不为0。所以之前的方法直接对输入信号 X 进行SVD,用VXVTX进行子空间聚类。当然这种方法对噪声和Outlier敏感。因此如下假设:

X=X0+E0

随后文章做了3个程度的假设,由特殊到一般地描绘了噪声的程度,不详细说。
那么哪里用到了Low-Rank呢?文中又做了如下的处理:

min(Z,E)rank(Z)+λ||E||ls.t.X=AZ+E

这里 A 是“字典”。为什么要求解这个问题?后面文章证明了这个问题的解Z=UΣVT中的 U 与上面的 V0VT0 矩阵有关。这个问题文中把它转化为 ||||+||||2,1 ,之后用ALM进行了求解。

虽然不太懂整个文章的过程(因为没有看具体证明),但是Low-Rank的使用和求解还是与之前看的几篇文章大同小异。重点还是对具体问题的建模,即如何把问题转换为Low-Rank可解决的问题。

对齐问题的新思路

因为涉及到可能要写在论文中的内容,不能发表在博客中。

竞赛

今天所做的事情是在整理好的数据基础上,把预测的大体框架写出来。我总结一下目前数据处理这一步有以下几个问题:
1. 缺失值的处理
2. 数据波动大的问题

缺失值包括在训练数据中的缺失以及预测数据中的缺失。例如在时间序列的模型lag=7的模型中,开始预测日期(11月1日)前7天的数据缺失属于后者,其他属于前者。这两者的区别是前者可以忽略,但后者必须想办法处理。

数据波动大,这包含了一周之中每天的客流量差异,以及随机噪声的成分。我目前的处理是用hp滤波器过滤掉不平滑的部分,得到较为平滑的数据。这样做应该不会影响到数据的seasonal特性。

在特征选取,我目前是用最简单的时间序列的思路,使用前几天数据加上dayofweek形成特征,训练RF模型。RF模型也暂时没有cross validation来进行调参。

这样做的结果用眼睛看上去好像还不错。虽然我知道这很不靠谱。前7天作为特征的话,几乎只能学习到一些短期变化趋势,而这个竞赛更重要的应该是稍长期的变化趋势更为重要。根据这个思路后面的时间再慢慢调整模型和特征。

读书

《菊与刀》读到三分之二的位置了。在看昨天的《银魂》的时候,我开始去考虑这部作品,它的国内观众和国外观众看待它的不同。之前我总觉得,动漫中的有些反面角色被奇迹般的洗白,但是在洗白之前他所做的事情让我感觉不可饶恕。就算是最终发现他是出自好的目的,也不能在内心去接受。比如《银魂》中的高杉、《火影》中的团藏和鼬。日本人会在义理的基础上,把复仇看作是正当的行为,即使复仇违背了法律,伤害他人的感情。恩、义理,在他们的心中才是最占主导的,而不是我们崇尚的正义、仁义或是个人感情。所以鼬为了忠而杀全家,仍然能得到理解和赞许。了解了这些以后,我在看动漫时又是全新的角度了。

《曾国藩家书》昨天晚上我看到了让自己感悟最深的一封。作者在文中提到节劳、节欲、节饮食的保身之道,以及有志、有识、有恒的目标,我觉得也是我自己勉励自己的关键问题。有识要看天分和运气,而有志和有恒都可以通过个人努力做到。我每天记日记做记录就是希望自己能够有恒。每隔一段时间写心情,也是要有恒。每周坚持锻炼,也是要有恒。作者提到慎交友,“在一些没见识的人中间,会被他们嘲笑,会成为他们的同类”,也让我深有同感。我经历过身边都是损友的时光,确实很影响自身的进步和感情。以后的经历中,一定要仔细选择身边的人。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值