数据挖掘和机器学习
文章平均质量分 70
hxcaifly
这个作者很懒,什么都没留下…
展开
-
机器学习-分类问题评估方法
本文目的机器学习模型中,最常见的一种问题是分类问题。对于分类问题实现之后,如果对算法的性能和正确性做一番评估,这里我们有必要总结下。常用的衡量指标对于分类问题的结果评估,主要评估手段见下面表格 指标 描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics import precision_sco...原创 2018-03-30 14:37:32 · 1216 阅读 · 0 评论 -
大数据开发_EDA
1. 前言对于从事大数据开发,数据挖掘或者机器学习领域的同学来说,当面对陌生的海量数据时,往往最先做的不是急着去开发功能,而是去认识数据和清洗数据。...原创 2018-06-30 22:52:11 · 5183 阅读 · 0 评论 -
CART 分类与回归树
道德底线原创 2018-06-26 18:44:35 · 470 阅读 · 0 评论 -
Bagging和Boosting 概念及区别
1.前言Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。2. Bagging(bootstrap aggregating)Bagging即套袋法,其算法过...原创 2018-08-19 19:43:40 · 192 阅读 · 0 评论 -
神经网络故障排查
1.前言这里结合了我们的经验以及网上提供的一些资源,总结了在定位卷积神经网络系统问题时的一些方法。我们主要聚焦在利用深度神经网络实现的有监督学习。这里的实现默认是Python3.6 Tensorflow(TF)。假设我们利用一个卷积神经网络来训练模型,然后评估的结果达不到我们的预期。下面的步骤将是定位问题和逐步提升我们模型的方法思想。首先先总结下在开始故障排除之前必须要做的事情。这些故障问...原创 2018-08-17 11:14:46 · 1612 阅读 · 1 评论 -
[机器学习] :到底需要多少数据?理论分析来告诉你
1. 前言机器学习中最值得问的一个问题是,到底需要多少数据才可以得到一个较好的模型?从理论角度,有Probably approximately correct (PAC) learning theory来描述在何种情况下,可以得到一个近似正确的模型。但从实用角度看,PAC的使用范围还是比较局限的。所以今天我们主要想讨论一个问题:到底如何定义有效数据量。2.数据的粒度数据的粒度可...原创 2018-08-27 08:22:18 · 3903 阅读 · 0 评论 -
如何解决数据不平衡问题
1.前言这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。2. 数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往...原创 2018-08-20 11:05:10 · 10720 阅读 · 0 评论 -
【有监督分箱】方法二: Best-KS分箱
变量的KS值KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距 。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这里的KS值是变量的KS值,而不是模型的KS值。(后面的模型评估里会重点讲解模型的KS值)。KS的计算方式:计算每个评分区间的好坏账户数。计算...原创 2018-11-28 22:23:05 · 13859 阅读 · 8 评论 -
python实现最大公共子序列算法
研究目的最近在做日志文本挖掘,我们要实现的功能之一是对日志事件进行聚类,聚类的方法是每两条日志之间,寻找他们的最大公共子短语(专业术语叫做最大公共子序列)。当公共子序列的长度超过一定时,我们认为这两条日志是相同事件的可能性比较大。所以本文是想实现寻找两条日志文本之间的最大公共子短语算法。算法设计最长公共子序列(LCS)是一个十分实用的问题,它可以描述两段文字之间的“相似度”,即它们...原创 2018-04-02 00:38:46 · 474 阅读 · 0 评论 -
k-fold cross validation(k-折叠交叉验证)
交叉验证的目的在实际训练中,模型通常对训练数据好,但是对训练数据之外的数据拟合程度差。用于评价模型的泛化能力,从而进行模型选择。交叉验证的基本思想把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对模型进行训练,再利用验证集来测试模型的泛化误差。另外,现...原创 2018-04-15 22:33:31 · 3507 阅读 · 1 评论 -
【有监督分箱】方法一:卡方分箱
1.前言评分卡建模在金融行业应用得比较广泛,比如对客户的信贷诚信度进行评分。在建模过程中,对连续变量的分箱是一个必不可少的过程。正好我最近的项目也是要做一个积分卡,因此想对分箱做一个较全面的总结。2.定义何谓分箱,简单地说,分箱就是将连续变量离散化,将多状态的离散变量合并成少状态。3.分箱的用处离散特征的增加和减少都很容易,易于模型的快速迭代;稀疏向量内积乘法运算速...原创 2018-05-06 19:01:25 · 44482 阅读 · 33 评论 -
Python 序列化和反序列化的应用--cPickle
1.序列化的作用在程序运行过程中,所有的变量都是加载到内存中的,比如定义一个dict:d = dict(name='Bob', age=20, score=88)可以随时修改变量,比如把name改成’Bill’,但是一旦程序结束,变量所占用的内存就被操作系统全部回收。如果没有把修改后的’Bill’存储到磁盘上,下次重新运行程序,变量又被初始化为’Bob’。 我们把变量从内存中变成...原创 2018-05-06 21:49:14 · 732 阅读 · 0 评论 -
python的set在大数据分析中的应用
1.python中set数据结构说明set(集合)是一个无序不重复元素的集,并且这些元素不需要是相同类型的数据。其基本功能包括关系测试和消除重复元素。集合对象还支持 union(联合),intersection(交),difference(差)和sysmmetric difference(对称差集)等数学运算。2.set基本用法初始化一个set变量:>>&g...原创 2018-05-06 22:53:09 · 1017 阅读 · 0 评论 -
贝叶斯思维的应用
1.前言英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了贝叶斯定理。在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。最初提出贝叶斯定理是为了解决“逆概率”问题,然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个问题领域,比如肝癌的检测、垃圾邮件的过滤。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器...原创 2018-05-07 02:17:17 · 2316 阅读 · 0 评论 -
深度学习与计算机视觉(PB-12)-ResNet
系列学习:深度学习与计算机视觉(PB-13)—ImageNet数据集准备深度学习与计算机视觉(PB-12)—ResNet深度学习与计算机视觉(PB-11)—GoogLeNet深度学习与计算机视觉(PB-10)—Kaggle之猫狗比赛深度学习与计算机视觉(PB-09)—使用HDF5保存大数据集深度学习与计算机视觉(PB-08)—应用深度学习最佳途径深度学习与计算机视觉(PB-07)—...转载 2018-12-01 14:15:22 · 2794 阅读 · 0 评论