随记

计算, 数据,算法
特征工程:特征处理影响结果,提高预测效果

one-hot编码


贪婪算法的核心思想:使局部都达到最优之后全局自然而然就成为最优。
这实际上很容易得到局部最优解,无法得到数据的全局最优解。正交匹配追踪算法 (Orthogonal matching pursuit, OMP)作为贪婪算法中比较具有代表性的算法,其主要 思想在于以下两点:
(1)认为字典原子在信号投影中越大对信号的描述越好; (2)每一次选择的原子都与之前的原子正交。


最小二乘法:根据几个样本数据推测实际值是y,然后算欧式距离的值,算出的数最小的那个,更贴近真实y
似然:有现象推测关系,比如关晓同和鹿含穿了同一款衣服,推测关系亲密


线性:直线,即一次函数关系。
非线性:不是直线,不是一次函数关系。
举例子:y=kx+b 线性,y=x^2 非线性


Bp 网络在图像数据的识别和分类问题中的表现是很有限的
图像类的问题,结合图像处理中的卷积化运算,改进了网络的架构,提出了 卷积神经网络(CNN) 这种神奇的架构,大大推动了计算机视觉的发展。


关键词:半监督 生成树


降维方式有很多。线性判别法:
LDA有监督 学习的降维技术,每个样本都有类别输出,偏向于分类;
PCA无监督 学习的降维技术,是基于最大方差法来提取数据中最有价值的信息,无需知道降维后数据的物理意义,针对预测结果来说是更好的选择。


bartlet 球形检验:用于检验数据的分布,以及各个变量间的独立情况。
按照理想情况,如果有一个变量,那么所有的数据都在一条线上。
如果有两个完全独立的变量,则所有的数据在两条垂直的线上。
如果有三条完全独立的变量,则所有的数据在三条相互垂直的线上。
如果有n个变量,那所有的数据就会在n条相互垂直的线上,
在每个变量取值范围大致相等的情况下(常见于各种调查问卷的题目),所有的数据分布就像在一个球形体里面。想象一下万剑穿心的情形,大抵就是那个样子。
如果不对数据分布进行球形检验,在做因素分析的时候就会违背因素分析的假设——各个变量在一定程度上相互独立。在spss中的因素分析时有关于bartlet 球形检验的选项,如果sig值小于0.05,则数据呈球形分布。


自由度(degree of freedom, df):计算某一统计量时,取值不受限制的变量个数。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值