机器学习
文章平均质量分 90
风控大鱼
这个作者很懒,什么都没留下…
展开
-
评分卡建模工具scorecardpy全解读
说到评分卡建模工具,做过评分卡的应该都能想到谢博士的scorecardpy和专为工业界模型开发设计的Python工具包--Toad,两者相比,scorecardpy更加轻量级,且依赖较少,可以满足大多数场景下的评分卡构建。为了使评分卡建模流程更加便捷,该Python包针对建模中各个关键步骤都提供了现成的函数,如下: 数据集划分 (split_df) 变量筛选(iv, var_filter) 变量分箱(woebin, woebin_plot, woebin_adj, woebin原创 2021-03-05 12:09:23 · 6873 阅读 · 2 评论 -
异常检测算法分类及经典模型概览
最近工作涉及有关异常检测的内容,而且前几天在公司做了一次有关异常检测算法和应用场景的分享,在此总结记录一下。什么是异常检测?异常检测(Anomaly Detection 或 Outlier Detection)指的是通过数据挖掘手段识别数据中的“异常点”,常见的应用场景包括:金融领域:从金融数据中识别”欺诈案例“,如识别信用卡申请欺诈、虚假信贷等;网络安全:从流量数据中找出”入...原创 2020-02-23 13:12:09 · 4789 阅读 · 1 评论 -
训练及优化神经网络基本流程之第0到6步
在之前的笔记中,我记录过《神经网络的代价函数及反向传播算法》,以及使用BP算法(反向传播算法)的一点细节。这篇笔记想简短地总结记录一下训练并优化神经网络的几个步骤:第零步:之所以写了个第零步,是想记录一下如何搭建神经网络,毕竟要先有网络才能谈后续的训练和优化。关于构建问题之前也有过记录:《神经网络的模型构建》。输入层的单元个数取决于特征个数,也就是;输出层的单元个数取决于训练集中结果的...原创 2018-07-19 20:19:17 · 5938 阅读 · 0 评论 -
基于 XGBoost 对 Santander 银行用户购买行为进行预测
Santander Product Recommendation是我去年做的一个数据挖掘project,简单来说就是,给了一定量的数据,用合适的算法对这些数据进行建模分析,给出预测,从而挖掘出有价值的信息。这也是目前互联网金融公司重点关注的工作内容之一,由于最近在准备面试,回顾之前做过的项目,想重点总结一下这个项目。项目简介Santander 银行成立于西班牙,也称作西班牙国际银行,是...原创 2018-06-11 12:08:31 · 4988 阅读 · 4 评论 -
BP神经网络算法:将参数矩阵向量化
上一篇《机器学习:神经网络的代价函数及反向传播算法》记录了如何使用反向传播算法计算代价函数的导数,其中一个细节就是需要把参数的矩阵表达式展开成向量的形式,以便在后来使用高级的优化算法。Ng 老师在讲展开参数(Unrolling Parameters)这部分时,比较粗略。自己补了一下视频里提到的内容,在这里总结记录一下~基于 Matlab 实现 unrolling parameters,有...原创 2018-04-16 02:57:45 · 2116 阅读 · 0 评论 -
机器学习:神经网络的模型构建
什么是神经网络神经网络是一种模拟人脑工作原理,从而实现类人工智能的机器学习技术,支持处理图像、文本、语音以及序列多种类型的数据,可以实现分类、回归和预测等。简单的神经元:逻辑单元(Logistic Unit)由于神经网络建立在很多个神经元的基础上,其中每一个神经元都是一个学习模型,这些神经元叫做激活单元(Activation Unit)。以逻辑回归模型为例,采纳一些特征作为输入,给出逻辑输出,如下...原创 2018-03-28 04:34:18 · 3748 阅读 · 0 评论 -
机器学习:神经网络的代价函数及反向传播算法
在《机器学习:神经网络的模型构建》中,我记录了神经网络的一些基础知识,包括神经网络的逻辑单元、模型表示、前向传播等等。这篇笔记中,我会整理神经网络的代价函数以及反向传播算法~那么如何在给定的训练集下,来为神经网络拟合参数呢?和之前学习的大多数算法一样,要从代价函数开始讨论起了。神经网络在分类中的应用神经网络可以应用在两种分类问题中:二分类问题和多分类问题。在二分类问题中,y 等于 0 或 1,神经...原创 2018-04-15 03:43:57 · 1968 阅读 · 0 评论 -
机器学习:用梯度下降法实现线性回归
之前在 机器学习算法数学基础之 —— 线性代数篇 中,总结过求解线性回归的两种方法:最小二乘法梯度下降法这篇文章重点总结一下梯度下降法中的一些细节和需要注意的地方。梯度下降法是什么假设有一个估计函数: ,其代价函数(cost function)为: 这个代价函数是 x(i) 的估计值与真实值 y(i) 的差的平方和,前面乘上 1/2,是因为在求导的时候,这个系数就不见了。梯度下降法的流程:1)首...原创 2018-02-25 10:01:14 · 1732 阅读 · 0 评论 -
机器学习:分类(Classification)算法
在目前的机器学习工作中,最常见的三种任务就是:回归分析分类分析聚类分析这篇文章的重点是分类(Classification)在机器学习领域中的应用。什么是「分类」虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准,我们得到的结果就越有价值。分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中。由...原创 2018-03-17 09:54:00 · 16764 阅读 · 0 评论 -
机器学习算法数学基础之 —— 统计与概率论篇(3)
核心问题发现数字的隐藏规律,完成分类。核心技能最大似然估计给定一个概率分布 ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 ,以及一个分布参数 ,我们可以从这个分布中抽出一个具有 个值的采样 利用 计算出其似然函数:若 是离散分布, 即是在参数为 时观测到这一采样的概率。若其是连续分布, 则为 联合分布的概率密度函数在观测值处的取值。一旦我们获得 我们就能求得一...原创 2018-02-22 08:19:06 · 779 阅读 · 0 评论 -
机器学习算法数学基础之 —— 线性代数篇(2)
线性代数核心问题求多元方程组的解。核心技能乘积、内积、秩已知矩阵 A 和矩阵 B,求 A 和 B 的乘积 C=AB。矩阵 A 大小为 mxn,矩阵 B 大小为 nxp。常规方法:矩阵 C 中每一个元素 Cij = A 的第i行 乘以(点乘)B 的第 j 列。设有 n 维向量令 ,称 为向量 x 与 y 的内积。在线代中秩的定义:一个矩阵 A 的列秩是 A 的线性无关的列的极大数目。类似地,行秩...原创 2018-02-21 13:44:10 · 2197 阅读 · 0 评论