计算, 数据,算法
特征工程:特征处理影响结果,提高预测效果
one-hot编码
贪婪算法的核心思想:使局部都达到最优之后全局自然而然就成为最优。
这实际上很容易得到局部最优解,无法得到数据的全局最优解。正交匹配追踪算法 (Orthogonal matching pursuit, OMP)作为贪婪算法中比较具有代表性的算法,其主要 思想在于以下两点:
(1)认为字典原子在信号投影中越大对信号的描述越好; (2)每一次选择的原子都与之前的原子正交。
最小二乘法:根据几个样本数据推测实际值是y,然后算欧式距离的值,算出的数最小的那个,更贴近真实y
似然:有现象推测关系,比如关晓同和鹿含穿了同一款衣服,推测关系亲密
线性:直线,即一次函数关系。
非线性:不是直线,不是一次函数关系。
举例子:y=kx+b 线性,y=x^2 非线性
Bp 网络在图像数据的识别和分类问题中的表现是很有限的
图像类的问题,结合图像处理中的卷积化运算,改进了网络的架构,提出了 卷积神经网络(CNN) 这种神奇的架构,大大推动了计算机视觉的发展。
关键词:半监督 生成树
降维方式有很多。线性判别法:
LDA 是 有监督 学习的降维技术,每个样本都有类别输出,偏向于分类;
PCA 是 无监督 学习的降维技术,是基于最大方差法来提取数据中最有价值的信息,无需知道降维后数据的物理意义,针对预测结果来说是更好的选择。
bartlet 球形检验:用于检验数据的分布,以及各个变量间的独立情况。
按照理想情况,如果有一个变量,那么所有的数据都在一条线上。
如果有两个完全独立的变量,则所有的数据在两条垂直的线上。
如果有三条完全独立的变量,则所有的数据在三条相互垂直的线上。
如果有n个变量,那所有的数据就会在n条相互垂直的线上,
在每个变量取值范围大致相等的情况下(常见于各种调查问卷的题目),所有的数据分布就像在一个球形体里面。想象一下万剑穿心的情形,大抵就是那个样子。
如果不对数据分布进行球形检验,在做因素分析的时候就会违背因素分析的假设——各个变量在一定程度上相互独立。在spss中的因素分析时有关于bartlet 球形检验的选项,如果sig值小于0.05,则数据呈球形分布。
自由度(degree of freedom, df):计算某一统计量时,取值不受限制的变量个数。