![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习&数据挖掘
文章平均质量分 55
AquaVII
耐得住寂寞,守得住繁华!只为成功找方法,不为失败找借口!
展开
-
机器学习通用框架
作者:Datartisan链接:https://zhuanlan.zhihu.com/p/22833471来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。每个数据科学家每天都要处理成吨的数据,而他们60%~70%的时间都在进行数据清洗和数据格式调整,将原始数据转变为可以用机器学习所识别的形式。本文主要集中在数据清洗后的过程,也就是机器学习的通用框架转载 2016-12-20 21:16:12 · 337 阅读 · 0 评论 -
信息增益 IG
今天在看特征选择CHI的时候,发现里面有个知识点叫做信息增益;感觉似懂非懂,特别模糊,所以找了好多dalao的文章,通俗的讲解下什么是信息增益以及相关知识。什么是熵?在接下里的链接里,会通俗的讲解https://ask.julyedu.com/question/6897什么是信息熵?首先看下公式:H(x) = -∑p(xi)log(2,p(xi)) (i=1,2,..n)原创 2017-07-21 14:57:35 · 4844 阅读 · 0 评论 -
卡方检验 CHI-square Test
卡方检验卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(“原假设”),然后观察实际值(观察值)与原创 2017-07-21 18:33:33 · 16637 阅读 · 0 评论 -
标称型数据和数值型数据
在学习机器学习的工程中,发现有一种名为标称型的数据,具体如下:标称型:一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果(一般用于分类)数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23这种值(一般用于回归分析)原创 2017-09-19 10:35:51 · 22289 阅读 · 0 评论 -
先验与后验
先验与后验从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。先验概率是指根据以往经验和分析得到的概率,如全概率公式 中的,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因” 。后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。先验概率和后验概率是相对转载 2017-10-26 15:42:22 · 42789 阅读 · 5 评论 -
先验概率与后验概率、贝叶斯区别与联系
先验概率和后验概率教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。堵车的概率就是先验概率 。那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率 。也就是P(堵车|交通事故)。这是有因求果。如果我们已经出了门,然后遇到了堵车,那么我们想转载 2017-10-26 17:26:46 · 2064 阅读 · 0 评论 -
如何解决"过拟合"
过拟合过拟合是指为了得到一致假设而使假设变得过度严格。为了防止过拟合,我们需要用到一些方法,如:early stopping、数据集扩增(Data augmentation)、正则化(Regularization)等.(这里面dropout不考虑进去)early stoppingData augmentationRegularization转载 2017-11-15 14:10:54 · 491 阅读 · 0 评论