机器学习笔记
L-Qing
这个作者很懒,什么都没留下…
展开
-
机器学习--降维方法
引言: 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。 目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量表达的转载 2018-05-03 10:05:56 · 173 阅读 · 0 评论 -
特征工程之特征选择
特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。 1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中...转载 2018-09-21 09:21:15 · 266 阅读 · 0 评论 -
小记---时间序列样本集划分问题
时间序列划分训练集与测试集问题 问题: 使用sklearn的train_test_split进行训练集和测试集数据划分后,数据的顺序被打乱,不再按照日期排序。这时候预测的准确度高达80%。鉴于这个准确度比较吓人,我有点怀疑。于是就对数据按照日期顺序划分训练集和测试集,比如2015年之前的作为训练集,之后的作为测试集。重新训练后,预测准确度下降到了50%。 知乎的回答 ...转载 2018-11-04 10:34:43 · 4505 阅读 · 3 评论