![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
法相
只有一种英雄主义,就是在认清生活真相之后依然热爱生活
展开
-
累积分布函数(Cumulative Distribution Function)
大家在做数据挖掘时,是不是经常遇到累计分布函数这个概念?除了明白它的曲线和特性之外,实际用处在哪里呢?可以用在数据标准化上,常见log转换、min-max标准化、z-score标准化、最大值标准化等不,本人在构建深度学习模型的时候(DCN),使用过累积分布,效果显著;思想来源于美团技术团队的分享。python代码如下:from sklean import preprocessingfrom...原创 2019-12-30 15:29:52 · 7804 阅读 · 1 评论 -
社区发现算法FastUnfolding的GraphX实现(转载)
mark一下,感谢作者分享! FastUnfolding算法可参考: https://blog.csdn.net/google19890102/article/details/48660239GraphX实现: http://www.aboutyun.com/forum.php?mod=viewthread&tid=19817...转载 2018-08-24 14:31:34 · 1903 阅读 · 0 评论 -
CatBoost:一个自动处理分类数据的机器学习库(转)
mark一下,感谢作者分享!http://www.atyun.com/4650.html <div id="primary" class="content-area"> <main id="main&转载 2019-01-25 18:02:25 · 1643 阅读 · 1 评论 -
Xgboost原理(转)
偶尔看到的一篇博文,写的很用心。https://blog.csdn.net/sunyaowu315/article/details/86477734转载 2019-01-29 19:14:27 · 177 阅读 · 0 评论 -
PMML 预测模型教程
mark一下,感谢作者分享!https://blog.csdn.net/wxk_1127/article/details/79797299 什么是PMMLPMML 是一种基于XML的标准语言,用于表达数据挖掘模型,可以用来在不同的应用程序中交换模型。一种非常有用的应用场景是在生产环境中部署用各种建模工具训练...转载 2019-02-22 14:51:55 · 3252 阅读 · 0 评论 -
爬虫开发整理
mark一下,感谢作者分享!https://www.cnblogs.com/bep-feijin/p/9067264.htmlhttps://www.cnblogs.com/bep-feijin/p/9067332.htmlhttps://www.cnblogs.com/bep-feijin/p/9088841.htmlhttps://www.cnblogs.com/bep-feijin/...原创 2019-03-03 09:47:22 · 170 阅读 · 0 评论 -
准确率(Accuracy), 精确率(Precision), 召回率(Recall)
mark一下原创 2019-03-08 17:59:00 · 532 阅读 · 0 评论 -
图模型在反欺诈中的应用
最近在研究图模型在反欺诈中的应用,综合整理相关资料。在目前的工作中,线上用的是fast unfoloding社区发现算法。1、阿里团队公开了用无监督模型,防范信用卡欺诈(autoencoder)(非图);https://mp.weixin.qq.com/s?__biz=MzU5ODUxNzEyNA==&mid=2247484173&idx=1&sn=3d768cef544...原创 2019-03-04 17:44:22 · 3779 阅读 · 3 评论 -
kaggle 欺诈信用卡预测(由浅入深(三)之AutoEncoder+异常检测)
mark一下原创 2019-03-26 10:53:07 · 3322 阅读 · 0 评论 -
GBDT,XGboost,Lightgbm,Catboost总结
mark一下,感谢作者分享!一、DBDT分裂GBDT使用的决策树就是CART回归树,无论是处理回归问题还是二分类以及多分类,GBDT使用的决策树自始至终都是CART回归树。 对于回归树算法来说最主要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,但是在回归树中的样本标签也是连续数值,所以再使用熵...转载 2019-03-20 20:37:51 · 4743 阅读 · 3 评论 -
kaggle 欺诈信用卡预测
mark一下,感谢作者分享!https://www.cnblogs.com/bonelee/p/9087882.html转载 2019-03-12 15:22:34 · 1597 阅读 · 0 评论 -
kaggle 欺诈信用卡预测(由浅入深(一)之数据探索及过采样)
项目背景数据集包含由欧洲持卡人于2013年9月使用信用卡进行交的数据。此数据集显示两天内发生的交易,其中284,807笔交易中有492笔被盗刷。数据集非常不平衡,正类(被盗刷)占所有交易的0.172%。它只包含作为PCA转换结果的数字输入变量。不幸的是,由于保密问题,我们无法提供有关数据的原始功能和更多背景信息。特征V1,V2,… V28是使用PCA获得的主要组件,没有用PCA转换的唯一特征是...原创 2019-03-18 17:51:34 · 5925 阅读 · 3 评论 -
kaggle 欺诈信用卡预测(由浅入深(二)之AutoEncoder+LogisticRegression)
在前一篇> kaggle 欺诈信用卡预测(由浅入深(一)之数据探索及过采样)我们利用SMOTE过采样和LogisticRegression来预测信用卡欺诈。现在我们利用样本类别本身的不平衡,用AutoEncoder来对特征进行表达,并将表达后的特征送入LogisticRegression。得到了好于SMOTE+LogisticRegression的效果。...原创 2019-03-26 10:53:22 · 4613 阅读 · 2 评论 -
python自动分箱,计算woe,iv
mark一下,感谢作者分享!https://blog.csdn.net/KIDxu/article/details/88647080 笔者之前用R开发评分卡时,需要进行分箱计算woe及iv值,采用的R包是smbinning,它可以自动进行分箱。近期换用python开发, 也想实现...转载 2019-04-02 11:26:15 · 9099 阅读 · 0 评论 -
蚂蚁金服ATEC人工智能大赛
https://dc.antfin.com/原创 2019-04-03 14:54:36 · 818 阅读 · 0 评论 -
pandas透视表常用方法
在实际工作中,一些字段较多的数据,存储时往往以params-values的形式存储。如下所示:test = pd.DataFrame([['a','var1',1],['a','var2',2],['b','var1',1],['b','var2',2]],columns=['id','params','values'])test一个id对应多行。然而在使用数据的过程中,往往希望一个id...原创 2019-05-22 15:02:11 · 2473 阅读 · 0 评论 -
决策树的进化(ID3、C4.5、CART、GBDT、RF、DART、lambdaMART、XGBoost、lightGBM)
mark一下,感谢作者分享!决策树的进化(ID3、C4.5、CART、GBDT、RF、DART、lambdaMART、XGBoost、lightGBM)https://blog.csdn.net/qq_22194315/article/details/83752321转载 2019-08-21 22:55:27 · 590 阅读 · 0 评论 -
机器学习-重要知识点梳理
href=“https://blog.csdn.net/lrs1353281004/article/details/79529818”>https://blog.csdn.net/lrs1353281004/article/details/79529818原文地址:http://blog.csdn.net/lrs1353281004/article/details/795...转载 2019-09-21 15:29:04 · 488 阅读 · 0 评论 -
利用Scrapy爬取所有知乎用户详细信息并存至MongoDB(附视频和源码)
mark一下,感谢作者分享! https://zhuanlan.zhihu.com/p/26378388转载 2018-08-18 19:28:53 · 242 阅读 · 0 评论 -
python分析《爱情公寓》电影评分为何2.7, 电影界的“拼多多”!(转)
mark一下,感谢作者分享! 上映以来群嘲不断,恶评如潮,豆瓣评分仅2.7在上映前,即便是面对铺天盖地的抄袭实锤,仍有大批电视剧的铁粉表示,“最好的朋友在身边,最爱的人在对面”是一代人的青春见证。其预售票房更是超过1亿,遥遥领先于同期上档的影片。然而与火爆票房相对...转载 2018-08-15 13:51:39 · 656 阅读 · 0 评论 -
独家记忆---雪球网文本挖掘点滴(转)
http://www.sohu.com/a/204635924_619348原创 2018-08-07 17:00:08 · 226 阅读 · 0 评论 -
python结合mongodb处理阿里大数据文件
在单机环境下部署好mongodb,利用python可以方便的地处理和分析数据。本次实例中引入阿里天池算法大赛中口碑数据,主要文件为shop_info.txt,user_pay.txt,user_view.txt,其中user_pay最大,大约为2G左右。如果一次性加载这样的文件到内存,明显并不合适。倘若同时需要用到几个大文件进行关联操作,那就真心爆炸了。 下面就简单介绍下如何利用python结合mongodb来处理大数据文件,包括写入数据库,读取数据库数据。原创 2017-06-19 23:13:49 · 1731 阅读 · 0 评论 -
windows下安装xgboost教程(最简易)
Anaconda是一个用于科学计算的Python发行版,支持Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。 XGBoost是一个非常好用的机器学习模型,能够等到很好的预测效果,算法竞赛里基本已经被XGBoost或XGBoost的组合模型所占领。原创 2017-06-23 22:54:09 · 709 阅读 · 0 评论 -
决策树模型调优
在上一篇用决策树判断广告的文章中,我们对数据做了简单的处理,过滤掉特征存在nan值的样本,利用决策树分类,得到了93.3%的准确率。现在我们来用一些方法进一步提高准确率。主要用到了PCA,SelectKBest,FeatureUnion,以及GridSearch原创 2017-07-15 15:54:14 · 3783 阅读 · 0 评论 -
决策树判断图像是否为广告
在数据挖掘中,决策树是最常见的基础模型。很多优秀的模型都是基于决策树改进而来。决策树的原理网上有很多的介绍,不在此赘述。 我们从网上下载广告集数据,并利用python的sklearn包里的DecisionTreeClassifier来进行广告分类原创 2017-07-12 23:37:26 · 784 阅读 · 0 评论 -
python核密度估计(KernelDensity)
在获得数据之后,我们需要对数据进行分析,以便了解数据的基本性质,为后续的模型选择和模型训练提供依据。了解特征的分布,是机器学习的第一步,同时也是相当关键的一步。我们引入了核密度估计来帮助我们了解数据的基本分布。原创 2017-06-29 20:42:19 · 47626 阅读 · 4 评论 -
XGBoost实战与调优
首先,python和Anaconda都没有自带xgboost。windows下安装xgboost非常方便。在前面的文章中,提供了下载地址和详细的安装步骤。 你可以在python中,输入import xgboost来检查是否安装成功。 下面,我们正式进入xgboost实战与效果检验。在前面的文章《决策树模型调优》中,我们通过PCA,特征选择,简单的特征组合将决策树模型预测广告的准确率从最初的93.3%提高到95.6%。那么,是否还能进一步提高呢,答案的是肯定的。接下来就来看看xg原创 2017-07-29 21:13:23 · 4909 阅读 · 2 评论 -
介绍xgboost原理的好文(转载)
深度好文,感谢作者的分享 原 xgboost原理 <div class="article-info-box"> <div class="article-bar-top d-flex"> <span class="...转载 2018-04-26 16:07:49 · 625 阅读 · 0 评论 -
PySpark数据分析教程(转载)
mark一下,感谢作者分享。 在前面的博文中,分享了如何在jupyter notebook下配置pyspark。 本次转载的博文,是一篇在pyspark下进行统计分析的基础教程,介绍了常用的基础技术。...转载 2018-05-14 16:49:09 · 7191 阅读 · 0 评论 -
基于sklearn_pandas库的数据挖掘实例
mark一下,感谢作者分享!http://www.cbdio.com/BigData/2016-08/31/content_5227769.ht &nbsp; 登录|注册 投稿 首页慕课课程正文优雅高效地数据挖掘:基于Python的sklearn_pandas库来源:数据挖掘机养成记...转载 2018-06-04 14:24:09 · 1624 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解(转载)
mark一下,感谢作者分享 1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模...转载 2018-06-05 17:52:08 · 1303 阅读 · 0 评论 -
数据比赛大杀器----模型融合(stacking&blending)(转载)
mark一下,深度好文转载,感谢作者分享 https://blog.csdn.net/u014356002/article/details/54376138英文版本 http://mlwave.com/kaggle-ensembling-guide/ 这里写链接内容这个是上面英文翻译过来的汉语翻译版本 kaggle比赛集成指南 http://m.blog.csdn.net/art...转载 2018-05-31 11:32:43 · 547 阅读 · 0 评论 -
集成学习总结&Stacking利器(mlxtend库)
mark一下,感谢作者分享! 集成学习主要分为 bagging, boosting 和 stacking方法。本文主要是介绍stacking方法及其应用。但是在总结之前还是先回顾一下继承学习。这部分主要转自知乎。1. Bagging方法:给定一个大小为n的训练集 D,Bagging算法从中均匀、有放回地选出 m个大小...转载 2018-06-01 10:50:37 · 21621 阅读 · 2 评论 -
工作中用到的模型诊断指数(转载)
mark一下,感谢作者分享! 1. 一般统计量均值、方差、最小值、最大值、1%分位数、5%分位数、 10%分位数、25%分位数、 50%分位数、75%分位数、90%分位数、 95%分位数、 99%分位数。一般要将数据排序后才能求得分位数。1.1 对每个Model(SEG_A、SE...转载 2018-07-25 13:34:58 · 618 阅读 · 0 评论 -
Kesci“魔镜杯”风控算法大赛复赛解决方案(转载)
mark一下,感谢作者分享! 来自决赛答辩第4,获得铜奖代码地址:https://github.com/wepe/PPD_RiskControlCompetition </div>...转载 2018-07-31 10:09:22 · 791 阅读 · 0 评论 -
干货 | 互联网金融之量化投资深度文本挖掘(附源码文档)(转)
mark一下,感谢作者分享! https://zhuanlan.zhihu.com/p/21568078转载 2018-08-07 09:15:22 · 800 阅读 · 0 评论 -
光大证券“中文云”项目开源地址
光大“中文云”项目开源地址 为带动国内金融文本研究,光大中文云系统现已开源。7人专业团队, 6年专注研究,2万行代码,爬虫、索引、检索、统计、热度、选股一气呵成。共享地址: https://github.com/dmquant/chinesecloudhttp://image.dajiangzhang.com/djz/attachement/20141124/4bc0a929-5daa-4...原创 2018-08-07 09:31:51 · 945 阅读 · 0 评论 -
异常点检测算法isolation forest的分布式实现(转)
mark一下,感谢作者分享!https://www.jianshu.com/p/a01a258ee7f2转载 2018-08-03 10:10:13 · 639 阅读 · 0 评论 -
apriori算法实现挖掘商品关联规则(python)
数据挖掘有个常见的应用场景,即顾客在购买一件商品时,商家可以趁机了解他们还想买什么,以便把多数顾客愿意同时购买的商品放到一起销售以提升销售额。当商家收集到足够多的数据时,就可以对其进行亲和性分析,以确定哪些商品适合放在一起出售。原创 2017-05-23 23:32:47 · 7759 阅读 · 7 评论