2017.2.16 日课

最新推荐文章于 2017-02-18 21:53:54 发布

cs_zhanglin

最新推荐文章于 2017-02-18 21:53:54 发布

阅读量268

点赞数

分类专栏：日记

本文链接：https://blog.csdn.net/cs_zhanglin/article/details/55273866

版权

日记专栏收录该内容

18 篇文章 0 订阅

订阅专栏

今天做的事情主要有四：一是继续阅读Low-Rank方面的文章，二是针对对齐的那篇文章进行了进一步的思考，三是写口碑比赛的代码，四是读《菊与刀》。

Low-Rank文章

今天继续了昨天的读论文过程。读到利用Low Rank结构进行Subspace clustering的文章，虽然有很多地方不能理解，但是大体熟悉了整个步骤，明白了这个方法可以用来做什么用。

这种方法首先得到原信号的“关联矩阵”，再对关联矩阵（affinity matrix）应用谱聚类（spectral clustering）的算法例如（NCut），最终得到属于每个子空间的samples。我之前熟悉的唯一聚类方法是K-Means，这种新方法的很多做法都让我觉得不理解，如果想要完全理解，可能还需要去阅读之前许多类似的Subspace clustering相关文章。这里，我只重点看它是如何应用Low-Rank方法的，而忽略了文章的其他部分。

假设 $X_0=U_0\Sigma_0 V_0^T$ 是一组“纯”的信号（来自几个不同子空间，并且没有Outlier或噪声），那么 $V_0V_0^T$ 应该具有“分块对角”的特性，即只有当第 $i$ 个信号和第 $j$ 个信号来自同一子空间时，该矩阵的 $i,j$ 元素不为0。所以之前的方法直接对输入信号 $X$ 进行SVD，用 $V_XV_X^T$ 进行子空间聚类。当然这种方法对噪声和Outlier敏感。因此如下假设：

X = X 0 + E 0

$X=X_0+E_0$
随后文章做了3个程度的假设，由特殊到一般地描绘了噪声的程度，不详细说。
那么哪里用到了Low-Rank呢？文中又做了如下的处理：

min (Z, E) r a n k (Z) + λ | | E | | l s . t . X = A Z + E

$\min_{(Z,E)} \mathrm{rank}(Z)+\lambda ||E||_l \quad s.t. \quad X=AZ+E$

这里 $A$ 是“字典”。为什么要求解这个问题？后面文章证明了这个问题的解 $Z^*=U^*\Sigma^* V^{*T}$ 中的 $U^*$ 与上面的 $V_0V_0^T$ 矩阵有关。这个问题文中把它转化为 $||\cdot||_*+||\cdot||_{2,1}$ ，之后用ALM进行了求解。

虽然不太懂整个文章的过程（因为没有看具体证明），但是Low-Rank的使用和求解还是与之前看的几篇文章大同小异。重点还是对具体问题的建模，即如何把问题转换为Low-Rank可解决的问题。

对齐问题的新思路

因为涉及到可能要写在论文中的内容，不能发表在博客中。

竞赛

今天所做的事情是在整理好的数据基础上，把预测的大体框架写出来。我总结一下目前数据处理这一步有以下几个问题：
1. 缺失值的处理
2. 数据波动大的问题

缺失值包括在训练数据中的缺失以及预测数据中的缺失。例如在时间序列的模型lag=7的模型中，开始预测日期（11月1日）前7天的数据缺失属于后者，其他属于前者。这两者的区别是前者可以忽略，但后者必须想办法处理。

数据波动大，这包含了一周之中每天的客流量差异，以及随机噪声的成分。我目前的处理是用hp滤波器过滤掉不平滑的部分，得到较为平滑的数据。这样做应该不会影响到数据的seasonal特性。

在特征选取，我目前是用最简单的时间序列的思路，使用前几天数据加上dayofweek形成特征，训练RF模型。RF模型也暂时没有cross validation来进行调参。

这样做的结果用眼睛看上去好像还不错。虽然我知道这很不靠谱。前7天作为特征的话，几乎只能学习到一些短期变化趋势，而这个竞赛更重要的应该是稍长期的变化趋势更为重要。根据这个思路后面的时间再慢慢调整模型和特征。

读书

《菊与刀》读到三分之二的位置了。在看昨天的《银魂》的时候，我开始去考虑这部作品，它的国内观众和国外观众看待它的不同。之前我总觉得，动漫中的有些反面角色被奇迹般的洗白，但是在洗白之前他所做的事情让我感觉不可饶恕。就算是最终发现他是出自好的目的，也不能在内心去接受。比如《银魂》中的高杉、《火影》中的团藏和鼬。日本人会在义理的基础上，把复仇看作是正当的行为，即使复仇违背了法律，伤害他人的感情。恩、义理，在他们的心中才是最占主导的，而不是我们崇尚的正义、仁义或是个人感情。所以鼬为了忠而杀全家，仍然能得到理解和赞许。了解了这些以后，我在看动漫时又是全新的角度了。

《曾国藩家书》昨天晚上我看到了让自己感悟最深的一封。作者在文中提到节劳、节欲、节饮食的保身之道，以及有志、有识、有恒的目标，我觉得也是我自己勉励自己的关键问题。有识要看天分和运气，而有志和有恒都可以通过个人努力做到。我每天记日记做记录就是希望自己能够有恒。每隔一段时间写心情，也是要有恒。每周坚持锻炼，也是要有恒。作者提到慎交友，“在一些没见识的人中间，会被他们嘲笑，会成为他们的同类”，也让我深有同感。我经历过身边都是损友的时光，确实很影响自身的进步和感情。以后的经历中，一定要仔细选择身边的人。

cs_zhanglin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2017.2.16 日课

今天做的事情主要有四：一是继续阅读Low-Rank方面的文章，二是针对对齐的那篇文章进行了进一步的思考，三是写口碑比赛的代码，四是读《菊与刀》。Low-Rank文章今天继续了昨天的读论文过程。读到利用Low Rank结构进行Subspace clustering的文章，虽然有很多地方不能理解，但是大体熟悉了整个步骤，明白了这个方法可以用来做什么用。这种方法首先得到原信号的“关联矩阵”，
复制链接

扫一扫