数据挖掘
文章平均质量分 75
CquptDJ
倾盖如故,白头如新!
展开
-
阿里天池金融数据分析赛题2:保险反欺诈预测baseline
好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了个模型,AUC就达到了0.95,排在了第二名,下图是我排名的截图,所以题目还是比较简单的,适合初学者入手。我比较喜欢做开源,因为分享也是一种快乐,如果大家对baseline代码有任何疑问,都可以提出来,我会详细解答的,也欢迎大家关注,有任何问题我都会解答!baseline的线上提交分数是0.9463,排名显示0.95.........原创 2022-07-02 15:19:05 · 14166 阅读 · 85 评论 -
2021 CCF基于UEBA的用户上网异常行为分析baseline线上0.90
2021CCF BDCI今年CCF又来了,每年都有大佬选手夺冠,也有黑马新人突出重围,对于新人来说一份baseline是很好的起点,可以更快入门数据竞赛。(大佬请忽略!!!)基于UEBA的用户上网异常行为分析结构化数据比较好入手,由于贷款违约数据有问题,所以选择了另外一个结构化赛题写了一个baseline,我只提交了一次,线上有0.8994,虽然比不上前排大佬的分数,但是对于入门来说还是可以参考下,而且提升空间还很大!比赛地址链接:https://www.datafountain.cn/compet原创 2021-09-22 22:01:00 · 2987 阅读 · 9 评论 -
NLP自然语言处理—文本分类入门
前言NLP作为机器学习三大热门领域之一,现在的发展也是越来越完备,从2012年神经网络崛起之后,自然语言领域就迎来了春天,特别是当预训练方法横空出世之后,NLP作为最先尝到预训练甜头的先锋,可以说是如虎添翼。虽然我个人做NLP方面的东西比较少(主要是穷,设备有限,跑不动模型),但是在结构化数据挖掘中有时候还是会遇到NLP相关的问题,比如在某些电商问题中,很多数据是文本数据,这些数据还是需要用到NLP的一些处理方法。以后的发展中会遇到更多关于NLP的问题,所以对于NLP领域一定要有了解,就算达不到精通的原创 2021-08-29 20:14:24 · 1437 阅读 · 17 评论 -
机器学习模型评估——混淆矩阵
混淆矩阵什么是混淆矩阵(Confusion Matrix)?我们在做分类问题时会用到机器学习分类模型,不管是二分类还是多分类问题,我们都要对模型的性能进行评估,看看模型的分类效果是否好,有多好!我们常常会选择一个合适的评估指标进行衡量,比如我们熟悉的ACC,AUC,F1-score,召回率等等,而混淆矩阵也是和它们一样的功能,混淆矩阵可以直观的展示我们分类器对每个样本的分类情况,知道有哪些类别分正确了,哪些类别被错误地分到了其他类别,混淆矩阵就做这么个事。概括:混淆矩阵就是我们用来评估模型分类好坏的(特原创 2021-08-27 22:45:53 · 3302 阅读 · 13 评论 -
用DNN做回归预测对比XGBoost
前言现在神经网络的运用越来越流行了,即使在结构化数据领域神经网络也随着数据量的增大而逐渐替代传统机器学习方法,能够创建一个基础的深度神经网络解决问题对一个合格的算法工程师来说变得越来越关键了。我就从一个初学者的角度出发,对我们常见的回归问题运用神经网络对和集成学习大杀器XGBoost进行预测效果对比。气温数据集下载地址:https://pan.baidu.com/s/1KNYfb2S7ct4KsIJxUFz2Uw 提取码:DJNB数据集探索打印前11行数据:可以看到,气温数据集只有9个特征属性原创 2021-08-19 21:34:48 · 9029 阅读 · 13 评论 -
数据挖掘中特征筛选方法策略
前言数据挖掘中我们经常会遇到高维数据,特别是当我们的特征工程做得比较复杂时,这些特征可能会让我们的模型过拟合,或者很多特征是没有意义,对模型的优化起不到作用,反而会降低模型的运行效率和精度,所以我们需要对我们的特征变量进行筛选,去除掉无意义的特征,尽可能保留少而强的特征。下面是我用得最多的几个方法,也是我个人觉得最实用方法,其他特征筛选方法大家可以自行查阅资料,这里不多介绍。方差选择卡方检验相关系数互信息其他方法写在最后...原创 2021-08-01 15:01:06 · 2790 阅读 · 11 评论 -
LSTM实现时序问题预测(Tensorflow版本)
前言前面写了一个RNN对股票走势的预测,可以看到循环神经网络在时序问题上面的表现还是非常不错的,本次就用RNN的改进版本LSTM(长短时记忆神经网络)再做一个时间序列问题,看看LSTM的效果怎么样。相关库数据集...原创 2021-07-18 17:03:22 · 7356 阅读 · 30 评论 -
RNN实现股票时间序列预测(Tensorflow版本)
前言原创 2021-07-17 16:14:18 · 1780 阅读 · 13 评论 -
讯飞开发者大赛-环境空气质量评价挑战赛baseline
前言最近讯飞开发者大赛如火如荼地进行着,各赛道赛题都具有挑战性,大家都可以参与挑战大赛地址:https://challenge.xfyun.cn/环境空气质量评价挑战赛数据说明具体的数据只有报名后即可下载,数据量并不大,初赛训练集和测试集都只有几百条数据评价指标本模型依据提交的结果文件,利用均方根误差(RMSE)评价模型。(1) 样本的相对综合污染系数 IPRC,用于判断样本之间的相对污染程度。(2) 基于IPRC,计算RMSE. 其中m为样本数,y为IPRC真实值,y_pred为IPR原创 2021-06-26 09:43:27 · 1919 阅读 · 5 评论 -
数据挖掘简单可视化方法
简单数据可视化最近有不少人私信问我数据可视化的图怎么画的?让我开源一下代码。这里我就简单演示一些最基础在数据挖掘过程中用得最多的几个数据可视化方法,希望可以帮助更多的人。说明:可视化数据集采用前面民宿预测项目的数据集!1.对数据集进行缺失值统计:plt.figure(figsize=(10, 10))missing = train.isnull().sum()/len(train)missing = missing[missing > 0] #这里只画出有缺失值的属性极其比例missi原创 2021-06-17 09:09:17 · 1673 阅读 · 6 评论 -
员工满意度预测分析
前言一个基础的数据分析项目,数据集非常简单,虽然有很多处理方法都用不上就可以做到一个比较好的效果(当然也可以进行一下骚操作,可以,但没必要),但是对于入门来说是非常适合的。训练集及测试集数据获取链接:链接:https://pan.baidu.com/s/1692cGZ7igopC3-Dka9_sMA提取码:DJNB话不多说baseline代码如下:from sklearn.ensemble import RandomForestRegressorfrom sklearn.preprocess原创 2021-04-14 22:31:55 · 5877 阅读 · 16 评论 -
阿里天池心跳信号分类预测baseline
阿里天池又来了一个数据挖掘新人赛,是关于心跳信号分类的预测问题,主要针对初学者学习数据挖掘知识比赛地址链接这次数据比较有意思,和最常见的多属性结构化数据不同,本次数据是心电图数据记录,所以用一下传统的思维方法可能做出来效果并不好,但是baseline还是采用传统的方法做的,仅仅只是实现做出结果的步骤,没有优化方法,最后会提到几个优化的思路。baseline代码如下:import pandas as pdimport numpy as npfrom lightgbm import LGBMClas原创 2021-04-02 02:15:24 · 4569 阅读 · 19 评论 -
模型融合---Stacking和Blending方法
前言机器学习中常常需要进行模型融合操作,而对于简单的问题,我们可以采用简单的方法,比如回归问题可以采用简单的线性加权融合,对于分类问题可以进行投票。这两个方法都是简单好理解的方法,但是有些时候为了达到更好的融合效果,我们需要更加花里胡哨的融合方法,其实也不复杂,原理也很简单。这里就介绍两种常用的进阶模型融合方法—stacking和blending。这里是kaggle上面对于这两种模型融合方法的英文介绍:kaggle模型融合介绍话不多说,直接开始!...原创 2021-03-26 09:30:44 · 3887 阅读 · 6 评论 -
GBDT算法的升级--XGBoost与LightGBM算法
本文同样不涉及公式推导及代码,对于GBDT算法的学习可以参考前面的文章 GBDT算法原理,这里不再讲述GBDT,只讲述XGBoost与LightGBM算法原理参考文档:LightGBM官方文档(全英文)XGBoost官方文档(全英文)...原创 2021-03-06 17:18:10 · 3872 阅读 · 2 评论 -
Python实现随机森林算法(不调用sklearn方法)
前言网上关于随机森林原理介绍的文章或者资料很多,所以我的博客重点不是去详细地介绍随机森林的理论原理或者Bagging和Boosting的原理,也不是去写如何去掉包实现它,而是通过前段时间我自己写随机森林算法时发现网上很多python实现随机森林算法的代码都不是通过随机森林最原始的理论支撑去完成的,而且一些写法也是比较复杂和一些错误,所以我想自己写一篇用python实现随机森林算法的博客记录自己的学习过程,同时如果有其他人想学习也可以用的代码。当然,我的代码可以直接运行,应该是没有任何错误的,我也在代码中原创 2020-12-11 17:15:32 · 8574 阅读 · 23 评论 -
阿里天池金融风控baseline
前言比赛地址链接由于本次为基础赛,所以分为正式赛和长期赛,正式赛时间由于和另外重量级比赛冲突,所以做的大佬很少,本人有幸通过自己写的baseline冲到了Rank10,其实代码很少,也简单,也没有做特征,只是做的人少了普遍分都比较低,这篇博客的主要目的是给初学者一个参考,后面可以加很多特征提高,由此分享一下baseline及心得此次天池金融风控赛数据量比较小,训练集提供了80万数据,测试集有20万,数据集也在比赛链接里面可以下载,不用多说,直接放代码,有错误大佬勿喷,本人也是初学者代码如下:imp原创 2020-11-17 21:20:48 · 14952 阅读 · 66 评论 -
Boosting族算法--Adaboost算法与GBDT算法原理(简单易懂)
Boosting算法原创 2021-02-21 23:20:55 · 4955 阅读 · 7 评论