随记

最新推荐文章于 2021-02-24 20:10:40 发布

lee__7

最新推荐文章于 2021-02-24 20:10:40 发布

阅读量123

点赞数

本文链接：https://blog.csdn.net/lee__7/article/details/101786498

版权

计算，数据，算法
特征工程：特征处理影响结果，提高预测效果

one-hot编码

贪婪算法的核心思想:使局部都达到最优之后全局自然而然就成为最优。
这实际上很容易得到局部最优解，无法得到数据的全局最优解。正交匹配追踪算法 (Orthogonal matching pursuit, OMP)作为贪婪算法中比较具有代表性的算法，其主要思想在于以下两点:
(1)认为字典原子在信号投影中越大对信号的描述越好; (2)每一次选择的原子都与之前的原子正交。

最小二乘法：根据几个样本数据推测实际值是y，然后算欧式距离的值，算出的数最小的那个，更贴近真实y
似然：有现象推测关系，比如关晓同和鹿含穿了同一款衣服，推测关系亲密

线性：直线，即一次函数关系。
非线性：不是直线，不是一次函数关系。
举例子：y=kx+b 线性，y=x^2 非线性

Bp 网络在图像数据的识别和分类问题中的表现是很有限的
图像类的问题，结合图像处理中的卷积化运算，改进了网络的架构，提出了卷积神经网络（CNN）这种神奇的架构，大大推动了计算机视觉的发展。

关键词：半监督生成树

降维方式有很多。线性判别法：
LDA 是 有监督 学习的降维技术，每个样本都有类别输出，偏向于分类;
PCA 是 无监督 学习的降维技术，是基于最大方差法来提取数据中最有价值的信息，无需知道降维后数据的物理意义，针对预测结果来说是更好的选择。

bartlet 球形检验：用于检验数据的分布，以及各个变量间的独立情况。
按照理想情况，如果有一个变量，那么所有的数据都在一条线上。
如果有两个完全独立的变量，则所有的数据在两条垂直的线上。
如果有三条完全独立的变量，则所有的数据在三条相互垂直的线上。
如果有n个变量，那所有的数据就会在n条相互垂直的线上，
在每个变量取值范围大致相等的情况下（常见于各种调查问卷的题目），所有的数据分布就像在一个球形体里面。想象一下万剑穿心的情形，大抵就是那个样子。
如果不对数据分布进行球形检验，在做因素分析的时候就会违背因素分析的假设——各个变量在一定程度上相互独立。在spss中的因素分析时有关于bartlet 球形检验的选项，如果sig值小于0.05，则数据呈球形分布。

自由度(degree of freedom, df)：计算某一统计量时，取值不受限制的变量个数。