机器学习算法
文章平均质量分 58
阿君聊风控
一名有7年以上电商和互金小贷的风控算法工程师,乐于风控经验和知识的传播,期待找到同行交流风控经验
展开
-
tf-idf +逻辑回归来识别垃圾文本
【代码】tfidf +逻辑回归来识别垃圾文本。原创 2024-01-02 16:01:53 · 592 阅读 · 0 评论 -
使用apriori来挖掘关联规则
可以简单理解为:在全集的情况下,尿不湿的概率为80%,而在包含啤酒这个子集中,尿不湿的概率为100%,因此,子集的限定,提高了尿不湿的概率,啤酒的出现,提高了尿不湿的概率。置信度 (Confidence):指的就是当你购买了商品 A,会有多大的概率购买商品 B,在包含A的子集中,B的支持度,也就是包含B的订单的比例。提升度 (Lift):我们在做商品推荐或者风控策略的时候,重点考虑的是提升度,因为提升度代表的是A 的出现,对B的出现概率提升的程度。提升度 (A→B)=1:代表有没有提升,也没有下降;原创 2023-12-14 15:08:54 · 121 阅读 · 0 评论 -
朴素贝叶斯算法来识别垃圾文本
在电商平台中有大量的垃圾或者欺诈消息msg,如何识别召回这些垃圾消息是风控经常遇到的问题,今天我们来尝试用传统的朴素贝叶斯分类算法来挖掘分类模型来识别垃圾消息下面的样本中,标签1是垃圾消息,标签0是正常消息。原创 2023-12-06 14:12:00 · 109 阅读 · 0 评论 -
自编码 欺诈检测代码
数据还是使用信用卡的数据,数据来自于kaggle上的一个信用卡欺诈检测比赛,数据质量高,正负样本比例非常悬殊,很典型的异常检测数据集,在这个数据集上来测试一下各种异常检测手段的效果。当然,可能换个数据集结果就会有很大不同,结果仅供参考。信用卡欺诈是指故意使用伪造、作废的信用卡,冒用他人的信用卡骗取财物,或用本人信用卡进行恶意透支的行为,信用卡欺诈形式分为3种:失卡冒用、假冒申请、伪造信用卡。原创 2023-12-01 16:54:39 · 108 阅读 · 0 评论 -
iforest(孤立森林)来预测信用卡欺诈
iforest 孤立森林算法在信用卡欺诈检测中的应用代码原创 2023-12-01 16:35:42 · 323 阅读 · 0 评论 -
lr模型的训练和预测代码demo
1、模型的训练# -*- coding: utf-8 -*-import sysfrom pandas import DataFrame, Seriesfrom sklearn.preprocessing import KBinsDiscretizerimport numpy as npimport mathimport datetimefrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selecti原创 2021-11-25 16:24:17 · 1005 阅读 · 0 评论 -
马尔科夫模型
隐马尔科夫模型文章目录HMM的定义HMM的应用场景HMM可以用五个元素来描述,即2个状态集和3和概率矩阵1)隐含状态S2)可观测状态O3)初始状态转移矩阵 π4)隐藏状态转移概率矩阵A5)观测状态转移概率矩阵BHMM的两个基本假设1)马尔科夫假设2)观测独立性假设HMM可以解决的问题1)评估问题2)解码问题3)学习问题中文分词属于解码问题HMM的定义 隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔科夫过程。其难点是从可观测的参数中确定该过程的隐含参数,然后利用这些隐含的函数来做进一步原创 2020-05-26 15:56:54 · 719 阅读 · 0 评论 -
隐马尔科夫模型HMM
隐马尔科夫模型文章目录HMM的定义HMM可以用五个元素来描述,即2个状态集和3和概率矩阵1)隐含状态S2)可观测状态O3)初始状态转移矩阵 π4)隐藏状态转移概率矩阵A5)观测状态转移概率矩阵BHMM的两个基本假设1)马尔科夫假设2)观测独立性假设HMM可以解决的问题1)评估问题2)解码问题3)学习问题HMM的定义 隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔科夫过程。其难点是从可观测的参数中确定该过程的隐含参数,然后利用这些隐含的函数来做进一步的分析,例如模式识别。 隐马尔可原创 2020-05-25 19:44:03 · 507 阅读 · 1 评论 -
聚类知识谱图
原创 2020-05-14 09:39:43 · 588 阅读 · 0 评论 -
分类算法知识图谱
原创 2020-05-07 20:42:58 · 370 阅读 · 1 评论 -
LR什么时候要进行特征选择,什么时候不用特征选择?
LR使用gbdt的衍生特征效果如何?什么时候使用组合特征?1、LR算法对高维稀疏矩阵具有鲁棒性,因此LR的正则化参数,会将区分度较弱的特征赋一个较小的权重,另外,当特征维度较高时,大量维度特征的权重也较小,使得最终得到的模型具有较强的鲁棒性。2、但是当样本量较小,尤其是特征的维度大于样本时,LR算法会受到无关特征的干扰,使得模型过拟合。因此,当样本量较少时,需要进行特征选择因此,是否要进行特...原创 2020-01-02 18:26:02 · 1307 阅读 · 0 评论 -
如何将LR的预测概率值转化为分数?
如何将LR的预测概率值转化为分数? 背景:在互联网金融中,一般用LR模型来预测一个借贷用户的好坏,但是LR模型得到的结果是逾期的概率值,如何仅仅给出预测概率值,人一般很难判断这个概率值代表的用户质量好坏,但是如果能够给出分数就比较理解了。而我们一般要把逾期概率转为分数来供公司进行决策,那么如何将逾期概率转化为用户质量的得分,例如0-100呢? 最容易想到的是将逾期率概率值直接乘以100就得...原创 2020-01-02 16:57:31 · 2987 阅读 · 0 评论 -
为什么树模型不需要对特征进行one-hot编码、归一化、或者woe编码等预处理呢?
为什么树模型不需要对特征进行one-hot编码、归一化、和woe编码等预处理呢?1、树模型是要寻找最佳分裂点,对于离散特征,树模型会评估每个离散值的信息增益,将信息增益最大的数值作为分裂点,因此,树模型不需要对离散特征进行事先one-hot处理,否则会使特征维度增大且稀疏,不仅会增加模型的计算量,而且会损失数据的信息量造成模型的效果不佳,以及过拟合的风险。2、对于连续型特征,树模型对尝试对连续...原创 2020-01-02 15:54:44 · 6234 阅读 · 0 评论 -
特征的设计模式
特征的设计模式分数据源通讯录通话记录profile设备信息…分类型社交类型:父母、配偶、亲属、朋友、陌生人手机型号:安卓、苹果订单:申请通过、申请未通过、逾期、未逾期…统计总和、总次数、占比、最大值、最小值、均值、中位数、分位数描述例如:工作所在省市、户籍所在省市、年龄、性别、职业; 手机的品牌、手机的型号、是否root、手机号的归属地时间窗口:...原创 2019-12-31 20:27:43 · 238 阅读 · 0 评论 -
ks和auc的原理
ks和auc的原理将预测概率值排序将按照预测概率值排序后的样本进行K等分分别计算每个桶内样本的累计TPR和FPR,即首先计算第一个分桶中TPR和FPR,计算第二个分桶的TPR和FPR后和第一个分桶的结果进行累计将每个分桶的累计TPR和FPR分别作为纵坐标和横坐标,画出roc曲线计算roc曲线的面积即为auc计算每个分桶内累计TPR和FPR的差值,取最大差值即为KS代码:impo...原创 2019-12-31 19:15:13 · 1344 阅读 · 0 评论 -
python LR 数据挖掘代码
不同的特征处理方式对LR二分类结果的影响在前面https://blog.csdn.net/u010569893/article/details/93380700 讲到了特征工程的概念和常见的特征工程方法,那么今天将对比下不同的特征处理方式对LR模型分类结果的影响结论:对于LR分类算法而言,对特征进行woe编码的效果要优于仅仅对特征进行归一化处理的效果auc归一化woe编码...原创 2019-12-25 15:43:03 · 449 阅读 · 0 评论 -
lr使用grid_search来调参
目的:使用sklearn的网格搜索grid_search来计算最好的LR模型参数,这样省去了人工调试参数的工作,而且算法会帮你计算出最好的模型参数。另外,xgboost的网格搜索代码请参考:https://blog.csdn.net/u010569893/article/details/91887394代码import numpy as npfrom numpy import loadtx...原创 2019-12-25 11:11:31 · 1199 阅读 · 0 评论 -
熵和互信息
自信息(self information):衡量信息的多少;一个时间发生的概率越低,所包含的信息量越大;因此,自信息与该事件发生的概率呈反比; I(X) = log(1/p) = -log§,p是事件发生的概率熵:平均信息量;信息的平均不确定性;H(X) = -p1log(p1) -p2log(p2)-…-pnlog(pn) ; 熵的本质是香农信息量log(1/p)的期望。条件熵H...原创 2019-07-20 09:19:56 · 270 阅读 · 0 评论 -
特征工程
特征工程定义特征:从原始数据中抽取出来的对预测结果有用的数据特征工程:用专业的技巧和方法从原始数据中挖掘有用特征(对预测结果有帮助的特征)的过程意义更好的特征意味着只需要简单的模型更好的特征意味着更好的结果特点听起来高大上:机器学习比赛中特征工程比较有用资料比较少:跟业务和场景有关过程从hdfs或者hbase中拉原始数据进行数据清洗、数据标准化、数据采样(正负样本...原创 2019-06-23 14:05:31 · 176 阅读 · 0 评论 -
逻辑回归算法LR
逻辑回归算法LR逻辑回归相信很多人都很熟悉,这个算法科能不如随机森林、SVM、神经网络、GBDT等分类算法那么复杂那么高深,但是绝不能小瞧这个算法,因为这个这个算法有几个优点是那几个算法无法达到的,一是逻辑回归算法已经比较成熟,预测较为准确;二是模型求出的系数易于理解,便于解释,不属于黑盒模型,尤其在金融业,80%的预测是使用逻辑回归;三是结果是概率值,可以做ranking model; 四是训...原创 2019-06-21 18:00:32 · 679 阅读 · 0 评论