自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 数据挖掘(7)

1.简单的示意图 神经网络致力于模仿人的神经网络,尽管相对于单个细胞来说,计算机的计算能力要快得多,但人脑美妙的做到了计算机难以做到的事情。 wo是一个bias,x0=1,这个条件是必要的。 如果忘了,这个切平面就会经过原点 wo的作用就是:控制判决平面到原点的距离 控制判决平面到原点的距离 如果忘记,这个分割永远不会收敛。 此时w0=-0.8 只有两个0.5都完成时,值才能...

2018-08-23 23:07:59 262

原创 机器学习(1)

我们首先讨论的是监督学习。 监督学习给出了样本,这节课我们分析一下样本和特征的关系。1.特征 特征是需要被量化的,比如颜色,价格,而不是某种东西的“好看程度”,这不是特征。 很多个特征组成了某个物体,比如物体A 即A:{x1,x2,x3…….Xn}2.样本 样本分为有标签样本和无标签样本,区别在于,无标签样本没有标签,但有特征。 有标签样本是监督学习的主力军。...

2018-08-23 09:59:15 855

原创 8.22 数据挖掘(6)

1.决策树的收敛 收敛从叶结点开始,向上收敛,少数服从多数。 2.熵的偏差 最下面是一个惩罚公式,分子是information gain,而分母是分裂的特征个数,作为一种有效的惩罚措施。 比如,单纯的按生日辨别男女,information gain很大,entrpy为0,但是这给系统一个错误的细化特征的倾向,实际上,每个人一条规则肯定是不合适的。 3.在决策树模型中,校验集的用途...

2018-08-23 00:40:39 360

原创 数据挖掘(5) 贝叶斯分类

1.贝叶斯分类 是根据返回的概率大小决定回归对象的一种分类。 常用于新闻推送, 比如读者的行为1(阅读)和0(跳过),依次进行之后的推送。2.朴素贝叶斯重点内容 理论上我们应该用第三个公式:即联合概率分布,但实际中我们采用的是最后一个边缘概率乘积的方式。 最后一个公式,描述的是独立的an,在w1的情况下,乘积的概率。 argmax函数:取序列中的最大数的索引。比如...

2018-08-20 09:43:18 725

原创 数据挖掘 笔记(4)

1.特征选择 要领:最大可能选择区分度大的特征,比如下图将两个群体划分的较为明确。 2.熵(Entrophy) 比如有有一个人让你猜,是男是女,此时猜中的可能性(区分度)很低。 在熵中,这个事件为1,即非常不确定。 此时给一个distribution的情况,比如90%的烟民是男人,则区分度大大提高。 图中给出了一个熵的公式: 当熵=1,不确定性最高 若给出...

2018-08-18 21:01:20 333

原创 数据与挖掘 笔记3

1.标准化的方法 第一种 有上下限 比如最高的98000与最低的12000,定义73600为(0,1)之间的一个值的公式。 第二种 无限,计算偏离值的方法。 2.描述数据的方式 平均数,中位数(用的较多),高频数,方差:即Var(x)3.A与B是否相关? 值得注意的是,当=0时,并不意味着无关,只是不呈线性相关。 叉状表格,调查象棋与读书的相关性,红色框内是 本应该有...

2018-08-15 00:34:29 239

原创 数据与挖掘 笔记(2)Data Transformation

数据的类型(Attribute type) 1.Contiue 人的体重身高 2.Discrete 离散型数据,人的个数 3.Ordinal 等级制:ABC 4.Nominal 平行类:红黄蓝 5.String 文本型注: 比较特殊的是Nominal的数据,因为如果单纯的设为0,1,2,无形之间拉大了第一个和第三个类型数据...

2018-08-13 11:14:12 2414 1

原创 数据挖掘:理论与算法 笔记(1)

基础概念: (1)数据清洗是耗神的,原因有信息不完整,噪点(比如工资为-1元),前后不一等问题。 (2)数据缺失的原因有:设备故障,采集不当,N/A(Not Apploicable:比如对男性检查宫颈,对学生调查工资) (3)数据缺失的类型:完全随机缺失,有区分的缺失(女性不愿意说出体重),不完全随机缺失 处理数据缺失的方法: (1)Ignore (2)Fill pos...

2018-08-13 10:57:43 1849

原创 机器学习笔记 Day1

1.激励函数   特征:非线性   作用:使结果呈非线性化   缺点:使用过多,会导致梯度爆炸。2.张量的定义   n阶张量:    当n =0:数字;    当n=1:数组;    当n=2,矩阵3.Tensorfow的生成函数指令      (1) w=tf.Variable(tf.random_normal([2,3],stddev=2, mean=0, see...

2018-08-07 00:24:35 149

浙江大学06-07秋冬《线性代数I》期中考试答案.pdf

浙江大学06-07秋冬《线性代数I》期中考试答案.pdf

2019-08-13

统计预测方法及预测模型.ppt

统计预测方法及预测模型.ppt

2019-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除