数据挖掘
八刀
这个作者很懒,什么都没留下…
展开
-
数据与挖掘 笔记3
1.标准化的方法 第一种 有上下限 比如最高的98000与最低的12000,定义73600为(0,1)之间的一个值的公式。 第二种 无限,计算偏离值的方法。 2.描述数据的方式 平均数,中位数(用的较多),高频数,方差:即Var(x)3.A与B是否相关? 值得注意的是,当=0时,并不意味着无关,只是不呈线性相关。 叉状表格,调查象棋与读书的相关性,红色框内是 本应该有...原创 2018-08-15 00:34:29 · 216 阅读 · 0 评论 -
数据挖掘:理论与算法 笔记(1)
基础概念: (1)数据清洗是耗神的,原因有信息不完整,噪点(比如工资为-1元),前后不一等问题。 (2)数据缺失的原因有:设备故障,采集不当,N/A(Not Apploicable:比如对男性检查宫颈,对学生调查工资) (3)数据缺失的类型:完全随机缺失,有区分的缺失(女性不愿意说出体重),不完全随机缺失 处理数据缺失的方法: (1)Ignore (2)Fill pos...原创 2018-08-13 10:57:43 · 1807 阅读 · 0 评论 -
数据与挖掘 笔记(2)Data Transformation
数据的类型(Attribute type) 1.Contiue 人的体重身高 2.Discrete 离散型数据,人的个数 3.Ordinal 等级制:ABC 4.Nominal 平行类:红黄蓝 5.String 文本型注: 比较特殊的是Nominal的数据,因为如果单纯的设为0,1,2,无形之间拉大了第一个和第三个类型数据...原创 2018-08-13 11:14:12 · 2359 阅读 · 1 评论 -
数据挖掘 笔记(4)
1.特征选择 要领:最大可能选择区分度大的特征,比如下图将两个群体划分的较为明确。 2.熵(Entrophy) 比如有有一个人让你猜,是男是女,此时猜中的可能性(区分度)很低。 在熵中,这个事件为1,即非常不确定。 此时给一个distribution的情况,比如90%的烟民是男人,则区分度大大提高。 图中给出了一个熵的公式: 当熵=1,不确定性最高 若给出...原创 2018-08-18 21:01:20 · 299 阅读 · 0 评论 -
8.22 数据挖掘(6)
1.决策树的收敛 收敛从叶结点开始,向上收敛,少数服从多数。 2.熵的偏差 最下面是一个惩罚公式,分子是information gain,而分母是分裂的特征个数,作为一种有效的惩罚措施。 比如,单纯的按生日辨别男女,information gain很大,entrpy为0,但是这给系统一个错误的细化特征的倾向,实际上,每个人一条规则肯定是不合适的。 3.在决策树模型中,校验集的用途...原创 2018-08-23 00:40:39 · 307 阅读 · 0 评论 -
数据挖掘(7)
1.简单的示意图 神经网络致力于模仿人的神经网络,尽管相对于单个细胞来说,计算机的计算能力要快得多,但人脑美妙的做到了计算机难以做到的事情。 wo是一个bias,x0=1,这个条件是必要的。 如果忘了,这个切平面就会经过原点 wo的作用就是:控制判决平面到原点的距离 控制判决平面到原点的距离 如果忘记,这个分割永远不会收敛。 此时w0=-0.8 只有两个0.5都完成时,值才能...原创 2018-08-23 23:07:59 · 229 阅读 · 0 评论