八刀-CSDN博客

原创数据挖掘（7）

1.简单的示意图神经网络致力于模仿人的神经网络，尽管相对于单个细胞来说，计算机的计算能力要快得多，但人脑美妙的做到了计算机难以做到的事情。 wo是一个bias，x0=1，这个条件是必要的。如果忘了，这个切平面就会经过原点 wo的作用就是：控制判决平面到原点的距离控制判决平面到原点的距离如果忘记，这个分割永远不会收敛。此时w0=-0.8 只有两个0.5都完成时，值才能...

2018-08-23 23:07:59 262

原创机器学习（1）

我们首先讨论的是监督学习。监督学习给出了样本，这节课我们分析一下样本和特征的关系。1.特征特征是需要被量化的，比如颜色，价格，而不是某种东西的“好看程度”，这不是特征。很多个特征组成了某个物体，比如物体A 即A：{x1,x2,x3…….Xn}2.样本样本分为有标签样本和无标签样本，区别在于，无标签样本没有标签，但有特征。有标签样本是监督学习的主力军。...

2018-08-23 09:59:15 855

原创 8.22 数据挖掘（6）

1.决策树的收敛收敛从叶结点开始，向上收敛，少数服从多数。 2.熵的偏差最下面是一个惩罚公式，分子是information gain，而分母是分裂的特征个数，作为一种有效的惩罚措施。比如，单纯的按生日辨别男女，information gain很大，entrpy为0，但是这给系统一个错误的细化特征的倾向，实际上，每个人一条规则肯定是不合适的。 3.在决策树模型中，校验集的用途...

2018-08-23 00:40:39 360

原创数据挖掘（5）贝叶斯分类

1.贝叶斯分类是根据返回的概率大小决定回归对象的一种分类。常用于新闻推送，比如读者的行为1（阅读）和0（跳过），依次进行之后的推送。2.朴素贝叶斯重点内容理论上我们应该用第三个公式：即联合概率分布，但实际中我们采用的是最后一个边缘概率乘积的方式。最后一个公式，描述的是独立的an，在w1的情况下，乘积的概率。 argmax函数：取序列中的最大数的索引。比如...

2018-08-20 09:43:18 725

原创数据挖掘笔记（4）

1.特征选择要领：最大可能选择区分度大的特征，比如下图将两个群体划分的较为明确。 2.熵（Entrophy）比如有有一个人让你猜，是男是女，此时猜中的可能性（区分度）很低。在熵中，这个事件为1，即非常不确定。此时给一个distribution的情况，比如90%的烟民是男人，则区分度大大提高。图中给出了一个熵的公式：当熵=1，不确定性最高若给出...

2018-08-18 21:01:20 333

原创数据与挖掘笔记3

1.标准化的方法第一种有上下限比如最高的98000与最低的12000，定义73600为（0,1）之间的一个值的公式。第二种无限，计算偏离值的方法。 2.描述数据的方式平均数，中位数（用的较多），高频数，方差：即Var（x）3.A与B是否相关？值得注意的是，当=0时，并不意味着无关，只是不呈线性相关。叉状表格，调查象棋与读书的相关性，红色框内是本应该有...

2018-08-15 00:34:29 239

原创数据与挖掘笔记（2）Data Transformation

数据的类型(Attribute type) 1.Contiue 人的体重身高 2.Discrete 离散型数据，人的个数 3.Ordinal 等级制：ABC 4.Nominal 平行类：红黄蓝 5.String 文本型注：比较特殊的是Nominal的数据，因为如果单纯的设为0，1，2，无形之间拉大了第一个和第三个类型数据...

2018-08-13 11:14:12 2414 1

原创数据挖掘：理论与算法笔记（1）

基础概念：（1）数据清洗是耗神的，原因有信息不完整，噪点（比如工资为-1元），前后不一等问题。（2）数据缺失的原因有：设备故障，采集不当，N/A（Not Apploicable：比如对男性检查宫颈，对学生调查工资）（3）数据缺失的类型：完全随机缺失，有区分的缺失（女性不愿意说出体重），不完全随机缺失处理数据缺失的方法：（1）Ignore （2）Fill pos...

2018-08-13 10:57:43 1849

原创机器学习笔记　Ｄay1

1.激励函数　　特征：非线性　　作用：使结果呈非线性化　　缺点：使用过多，会导致梯度爆炸。２.张量的定义　　ｎ阶张量：　　　当n =0：数字；　　　当n=1:数组；　　　当n=2，矩阵３.Tensorfow的生成函数指令　　　(1) w=tf.Variable(tf.random_normal([2,3],stddev=2, mean=0, see...

2018-08-07 00:24:35 149

我的数据科学家之梦