今天做的事情主要有四:一是继续阅读Low-Rank方面的文章,二是针对对齐的那篇文章进行了进一步的思考,三是写口碑比赛的代码,四是读《菊与刀》。
Low-Rank文章
今天继续了昨天的读论文过程。读到利用Low Rank结构进行Subspace clustering的文章,虽然有很多地方不能理解,但是大体熟悉了整个步骤,明白了这个方法可以用来做什么用。
这种方法首先得到原信号的“关联矩阵”,再对关联矩阵(affinity matrix)应用谱聚类(spectral clustering)的算法例如(NCut),最终得到属于每个子空间的samples。我之前熟悉的唯一聚类方法是K-Means,这种新方法的很多做法都让我觉得不理解,如果想要完全理解,可能还需要去阅读之前许多类似的Subspace clustering相关文章。这里,我只重点看它是如何应用Low-Rank方法的,而忽略了文章的其他部分。
假设
X0=U0Σ0VT0
是一组“纯”的信号(来自几个不同子空间,并且没有Outlier或噪声),那么
V0VT0
应该具有“分块对角”的特性,即只有当第
i
个信号和第
随后文章做了3个程度的假设,由特殊到一般地描绘了噪声的程度,不详细说。
那么哪里用到了Low-Rank呢?文中又做了如下的处理:
这里
A
是“字典”。为什么要求解这个问题?后面文章证明了这个问题的解
虽然不太懂整个文章的过程(因为没有看具体证明),但是Low-Rank的使用和求解还是与之前看的几篇文章大同小异。重点还是对具体问题的建模,即如何把问题转换为Low-Rank可解决的问题。
对齐问题的新思路
因为涉及到可能要写在论文中的内容,不能发表在博客中。
竞赛
今天所做的事情是在整理好的数据基础上,把预测的大体框架写出来。我总结一下目前数据处理这一步有以下几个问题:
1. 缺失值的处理
2. 数据波动大的问题
缺失值包括在训练数据中的缺失以及预测数据中的缺失。例如在时间序列的模型lag=7的模型中,开始预测日期(11月1日)前7天的数据缺失属于后者,其他属于前者。这两者的区别是前者可以忽略,但后者必须想办法处理。
数据波动大,这包含了一周之中每天的客流量差异,以及随机噪声的成分。我目前的处理是用hp滤波器过滤掉不平滑的部分,得到较为平滑的数据。这样做应该不会影响到数据的seasonal特性。
在特征选取,我目前是用最简单的时间序列的思路,使用前几天数据加上dayofweek形成特征,训练RF模型。RF模型也暂时没有cross validation来进行调参。
这样做的结果用眼睛看上去好像还不错。虽然我知道这很不靠谱。前7天作为特征的话,几乎只能学习到一些短期变化趋势,而这个竞赛更重要的应该是稍长期的变化趋势更为重要。根据这个思路后面的时间再慢慢调整模型和特征。
读书
《菊与刀》读到三分之二的位置了。在看昨天的《银魂》的时候,我开始去考虑这部作品,它的国内观众和国外观众看待它的不同。之前我总觉得,动漫中的有些反面角色被奇迹般的洗白,但是在洗白之前他所做的事情让我感觉不可饶恕。就算是最终发现他是出自好的目的,也不能在内心去接受。比如《银魂》中的高杉、《火影》中的团藏和鼬。日本人会在义理的基础上,把复仇看作是正当的行为,即使复仇违背了法律,伤害他人的感情。恩、义理,在他们的心中才是最占主导的,而不是我们崇尚的正义、仁义或是个人感情。所以鼬为了忠而杀全家,仍然能得到理解和赞许。了解了这些以后,我在看动漫时又是全新的角度了。
《曾国藩家书》昨天晚上我看到了让自己感悟最深的一封。作者在文中提到节劳、节欲、节饮食的保身之道,以及有志、有识、有恒的目标,我觉得也是我自己勉励自己的关键问题。有识要看天分和运气,而有志和有恒都可以通过个人努力做到。我每天记日记做记录就是希望自己能够有恒。每隔一段时间写心情,也是要有恒。每周坚持锻炼,也是要有恒。作者提到慎交友,“在一些没见识的人中间,会被他们嘲笑,会成为他们的同类”,也让我深有同感。我经历过身边都是损友的时光,确实很影响自身的进步和感情。以后的经历中,一定要仔细选择身边的人。