机器学习
文章平均质量分 82
浪漫的数据分析
这个作者很懒,什么都没留下…
展开
-
CatBoost 和 Light GBM 和 XGBoost 使用GPU训练对比
Kaggle比赛各种增强算法,CatBoost 和 Light GBM 和 XGBoost每种算法处理类别变量了解参数在数据集上实现每种算法的性能原创 2022-07-11 17:05:08 · 4869 阅读 · 0 评论 -
随机森林做特征重要性排序和特征选择
随机森林模型介绍:随机森林模型不仅在预测问题上有着广泛的应用,在特征选择中也有常用。随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能。随机森林模型在拟合数据后,会对数据属性列,有一个变量重要性的度量,在sklearn中即为随机森林模型的 feature_importances_ 参数,这个参数返回一个numpy数组对象,对应为随机森林模型认为训练特征的重要程度,float类型,和为1,特征重要性度数组中,数值越原创 2022-02-24 16:56:10 · 44340 阅读 · 12 评论 -
推荐系统的发展演进历史和模型的目标及优缺点
推荐系统发展历程提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录推荐系统发展历程前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,原创 2021-12-24 20:22:11 · 7894 阅读 · 1 评论 -
tf.nn.dropout和tf.keras.layers.Dropout的区别(TensorFlow2.3)与实验
这里写目录标题场景:dropout和Dropout区别问题描述:结论:深层次原因:dropout是底层API,Dropout是高层API场景:dropout和Dropout区别全网搜索tf.nn.dropout和tf.keras.layers.Dropout区别,发现好多都是错误的讲解,因此有必要进行一次实验和纠错。tf.nn.dropout和tf.keras.layers.Dropout的区别,看本文就足够了。问题描述:tf.nn.dropout和tf.keras.layers.Dropou原创 2021-11-29 01:52:26 · 4424 阅读 · 1 评论 -
tensorflow2 神经网络模型构建4种方法
这里写目录标题学习目标:学习内容:1. 使用现有的预训练模型线下训练,线上加载运行线下训练线上加载迁移学习2.Keras Sequential模式建立模型(不推荐,灵活性太差)3.Functional API 函数api建立模型(最常用,可构建复杂网络)4.tf构建模型Class总结:学习目标:tensorflow2模型构建4种方法,掌握其优缺点。顺便:compile是TensorFlow2专门用来训练模型的,很方便,避免了写Gradenttape那种形式化结构,直观明了,一定要掌握。学习内容:原创 2021-11-29 01:27:03 · 2761 阅读 · 0 评论 -
阿里DIN模型(深度兴趣网络)详解及理解
这里写目录标题目标:模型产生原因:核心思想:模型介绍:Base model改进模型模型算法设计论文的算法改进参考资料目标:掌握2017年阿里提出的深度兴趣网络(Deep Interest Network for Click-Through Rate Prediction)以及后续的DIEN。本篇介绍DIN原文:Deep Interest Network for Click-Through Rate Prediction21 Jun 2017Deep Interest Evolution Net原创 2021-11-16 01:46:13 · 7680 阅读 · 1 评论 -
XGBoost对比RandomForest、GBDT、决策树、SVM,XGB+LR精度还能提升
目标:对比各种模型,XGBoost直接判了RandomForest、GBDT、决策树、SVM等死刑,XGB+LR精度还能提升。XGBoost:目前树模型的天花板,所有决策树中,XGBoost的精度最高,运行速度也还不错,所以竞赛中,结构化数据的比赛,基本都是用它了。另外,实验表明,XGBoost+LR精度还能进一步提升。学习内容:模型对比具体:1、 比较在测试集上的AUC表现2、 比较模型完成端到端训练预测的时间3、 了解算法的优缺点最终对比结果:结果如下:模型测试精度原创 2021-11-14 23:41:40 · 5361 阅读 · 0 评论 -
Facebook的GBDT+LR模型python代码实现
目标:实现GBDT+LR模型代码,并比较和各种RF/XGBoost + LR模型的效果,发现GBDT+LR真心好用啊。内容:构造GBDT+LR步骤训练阶段:1、 获取特性信息2、训练GBDT分类器3、遍历GBDT树的叶子节点,拼接成一个常常的一维向量4、 训练OneHot编码器5、 训练LR模型预测阶段:1、把带预测的特征输入到GBDT2、获得叶子节点,拼接成一个常常的一维向量3、获得OneHot向量4、LR预测结果这里发现了上篇文章的一个错误:就是GBDT树的叶子节点,输原创 2021-11-13 17:16:48 · 2513 阅读 · 0 评论 -
传统推荐算法Facebook的GBDT+LR模型深入理解
目标:深入理解Facebook 2014年提出的的GBDT+LR模型。CSDN上泛泛而谈的文章很多,真正讲解透彻的没几篇。争取我这篇能讲解透彻。今晚又想了许久,想通了一些原理。也分享出来。算法背景:FaceBook一推出这一模型就引起了业内的轰动,因其设计的巧妙以及预测效果的精良,很多公司一度极力推广,在数据比赛KDD中也经常使用。尽管GBDT+LR依然存在其问题点,但是在当时数据量没有特别大的情况下,这一模型几乎处于横扫千军的状态。后期模型被不停的优化,于是产出了:XGBoost/GBDT+原创 2021-11-11 23:06:14 · 2602 阅读 · 0 评论 -
推荐系统XDeepFM模型--DeepFM和DCN升级版
xDeepFM模型目标:引言:xDeepFM模型介绍:2.1 Compressed Interaction Network(CIN)xDeepFM复杂度分析Experiment产出:Conclusion参考资料:目标:学习模型xDeepFM模型,包含我个人的一些理解。深入理解模型。结合卷积神经网络CNN理解模型原理。昨晚想了一晚上才想通,都失眠了。微软亚洲研究院2018年提出xDeepFM模型,可以理解为对DeepFM和DCN升级版。相对于DeepFM,升级为自动构建高阶交叉特征相对于DCN,从原创 2021-11-08 01:49:32 · 3612 阅读 · 0 评论 -
推荐算法DCN(Deep & Cross)自动构造高阶交叉特征原理介绍
目标:斯坦福与Google联合发表在AdKDD 2017上的论文《Deep & Cross Network for Ad Click Predictions》。特点:对Wide@Deep模型的升级,可以自动自动构造高阶交叉特征。可以说和华为同期提出的DeepFM属于同一种思想,并且走得更远。看了下作者,好像也是中国人。中国不注重AI人才,导致大量的AI领军人物流失。真是可惜。华为同期提出的DeepFM只是用了FM替换了Wide@Deep中的Wide(LR)部分,没有提出更多的创新,DCN创新更原创 2021-11-06 04:05:27 · 2323 阅读 · 0 评论 -
推荐算法DeepFM原理介绍及tensorflow代码实现
目标:掌握DeepFM原理,以及发展历程。和具体的代码实现。产生背景:产生DeepFM模型的原因:前面学习的Embedding MLP、Wide&Deep、NerualCF 等几种不同的模型结构,都没有用到交叉特征。特征都是一个一个独立的送进模型训练,对于挖掘特征交叉或者特征组合的信息,比较低效。1、 Embedding MLP是把各个特征,进行了embeding后送进MLP无交叉。直接把独立的特征扔进神经网络,让它们在网络里面进行自由组合。2、 NerualCF也是仅仅把物品和用户分别原创 2021-11-05 01:24:41 · 1377 阅读 · 0 评论 -
经典Wide & Deep模型介绍及tensorflow 2代码实现
[[TOC]]目标:经典推荐深度模型 Wide & Deep。完整的paper名称是《Wide & Deep Learning for Recommender Systems》内容:这篇知乎小哥写的挺简单明了的,直接摘抄过来,原文:知乎原文本文介绍一个经典推荐深度模型 Wide & Deep。完整的paper名称是《Wide & Deep Learning for Recommender Systems》一. 模型介绍wide & deep的模型架构如原创 2021-11-03 01:11:16 · 1466 阅读 · 0 评论 -
协同过滤进化版本NeuralCF及tensorflow2实现
目标:掌握NeuralCF比传统基于矩阵分解的协同过滤算法的改进点,以及算法的优点和缺点。内容:上篇学习了最经典的推荐算法:协同过滤,并基于矩阵分解得到了用户和物品的embeding向量。通过点积可以得到两者的相似度,可进行排序推荐。但传统协同过滤通过直接利用非常稀疏的共现矩阵进行预测的,所以模型的泛化能力非常弱,遇到历史行为非常少的用户,就没法产生准确的推荐结果了。矩阵分解是利用非常简单的内积方式来处理用户向量和物品向量的交叉问题的,所以,它的拟合能力也比较弱。改进点1、 能不能利用深度学习原创 2021-11-01 00:42:59 · 566 阅读 · 3 评论 -
基于协同过滤算法的在线鲜花店推荐系统详解及GitHub下载
[[TOC]]基于协同过滤的在线鲜花店推荐系统项目需求:基于店铺的客户订单记录,实现店铺的推荐需求:基于RFM模型,得到客户的价值分类,对高价值客户进行重点跟踪,推荐其潜在的商品列表,即实现:给定用户编号,返回10个推荐商品列表。对店铺滞销商品,进行有针对性的促销活动,推荐给最有可能购买的10个用户,结合一些针对性的促销优惠活动,向10个用户推荐。即实现:给定物品编号,返回10个推荐用户列表。店铺尚未搭建Spark大数据环境,可搭建TensorFlow2的环境,因此使用Tenso原创 2021-10-21 21:09:13 · 902 阅读 · 0 评论 -
StratifiedKFold和KFold(5折验证)交叉验证的联系和区别Python实例
Kfold:将全部训练集分成k个不相交的子集,假设训练集的训练样例个数为m,那么每一个子集有m/k个训练样例,比如[1,2,3,4,5,6]分成两份,则第一份可能为[1,3,5],第二份[2,4,6]。每次从分好的子集里面,拿出一个作为测试集,其他k-1个作为训练集在k-1个训练集上训练出学习器模型,把这个模型用测试集来验证,最后求得所有子集的分类率的平均值,作为该模型或者假设函数的真实分类率。StratifiedKFoldStratifiedKFold用法类似Kfold,但是他是分层采样,确保训原创 2021-03-29 00:51:24 · 770 阅读 · 0 评论 -
数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL
坑DIE的住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,买房更难,首付更难凑。。。数据挖掘基础之数据清理:用python把深圳二手房参考价PDF保存为EXCEL,以便其他分析工具可以基于此excel做统计分析和画图,比如tableau。文章目录前言一、明确目标二、使用步骤1.事前处理2.读入数据总结前言本文学习机器学习机器学习的基础内容:数据清洗。结合实际生活场景,提升学习乐趣。深圳住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,该价格以PDF的形原创 2021-03-19 23:41:34 · 894 阅读 · 2 评论 -
线性模型LN、单神经网络SNN、深度神经网络DNN与CNN测试对比
上篇提到的卷积神经网络对手写数字的识别,识别率为99.15%,作为对比,我们对比一下线性模型LN、单神经网络SN、深度神经网络DNN对相同的测试数据进行模拟,才能看到卷积神经网络的强大。测试结果如下:模型名称正确率卷积神经网络99.15%线性模型31.32%单神经元模型92.49%深度神经网络96.97%结论和分析:卷积神经网络在图像处理领域无人能敌。模型名称分析原因线性模型只能划分线性问题,非线性问题无能为力单神经元模型原创 2021-03-18 23:59:10 · 1379 阅读 · 0 评论 -
卷积神经网络(CNN)详解及TensorFlow2代码实现
卷积神经网络名字听着挺吓人,本文用通俗易懂的方式解释。人人都能看懂。文章目录卷积是什么一、卷积神经网络介绍卷积层--提取局部图片特征扩充--padding,保持卷积后图片的长和宽保持不变池化层---降低维度,降低模型复杂度和计算量全连接层--输出结果二、TensorFlow2代码实现1.导入数据2.用TensorFlow2构建一个CNN网络总结卷积是什么卷积神经网络就是传统神经网络运用了矩阵卷积的技术。二维线性卷积:矩阵举例:(摘抄自)现在有一张图片 f(x,y) 和一个kernel核原创 2021-03-18 17:04:37 · 7855 阅读 · 1 评论 -
矩阵求导及其链式法则
原文地址,转载如下讲的还比较清楚。转载 2021-03-08 01:20:02 · 708 阅读 · 0 评论 -
数据挖掘的11大算法及python实现(个人笔记整理,非教学用)
分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CARTl 。聚类算法:K-Means,EMl 。关联分析:Aprioril 。连接分析:PageRank文章目录前言一、C4.5 算法二、SVM 算法三、KNN算法四、AdaBoost算法五、CART算法六、Apriori算法七、K-Means算法八、朴素贝叶斯(Naive Bayes)算法九、EM算法十、PageRank算法二、使用步骤1.引入库2.读入数据总结前言国际权威的学术组织 ICDM (the原创 2021-03-05 19:19:43 · 6922 阅读 · 0 评论 -
时间序列分析源资料汇总
时间序列分析在GitHub上有个专题,这里给出地址便于以后学习:时间序列分析总体介绍:Time Series analysis tsaSTL 分解介绍:STLDecompose后续陆续补充。转载 2021-01-27 14:42:38 · 335 阅读 · 0 评论 -
时间序列分析之:傅里叶变换找周期
时间序列分析万万没想到吧,信号处理的技术,能用在数据分析中。谁叫我是学通信出生的呢?承接上一篇:函数分解本节承接上文找函数的周期。文章目录时间序列分析傅里叶变换一、傅里叶变换(FFT)是什么?二、使用步骤1.新建FFT函数2.测试函数总结傅里叶变换通信专业的我,看到找周期时,不由自主想起了傅里叶变换。傅里叶变换就是把时域上的信号,变换到频域上,用很多个正弦波来合成时域信号。所以,我们找信号幅度最大的那个正弦波的频率,作为函数的周期。傅里叶变换最详细的介绍见这个文:详细得令人发指一、原创 2021-01-27 11:10:18 · 23182 阅读 · 22 评论 -
时间序列分析之:函数分解decompose
时间序列分析——函数分解第一篇 函数分解函数分解decompose文章目录时间序列分析——函数分解前言一、函数分解是什么?二、建立分解函数1.功能2.测试函数总结前言这几天一直在深思,如何建立一个和实际比较贴切的金融模型,能反映现实生活?比如我们听到国家又放水了,我们可以预期物价又得上涨了,但是如何通过模型来反映这种相关关系呢?伙伴杨RC说用EXCEL建了个模型来预测本期深圳车牌竞价,以达到最小的成本拍到车牌,这个想法不错,Good lucky to my brother。简单的模型可原创 2021-01-26 12:18:56 · 13566 阅读 · 3 评论 -
一招看穿信用卡套路
一招看穿信用卡套路使用Python解决实际问题公式运行结果初步结论非线性方程的求解结论2使用Python解决实际问题最近做了件有意思的事,虽没多少技术含量,但还是可以分享出来逗大家乐一乐。因为穷,我需要向银行贷款,目前建设银行提供两个贷款:一个是利率为5.39%的房贷,等额本息,每个月还款固定金额;另一个是装修贷,月利率0.28%,本金分期偿还,类似于信用卡账单分期,每个月还款也是一个固定金额,贷款时间最长5年,额度30万。建行经理说装修贷是该行最优惠的贷款了,一般信用卡分期的基础利率为0.68%,原创 2020-12-30 13:54:42 · 1275 阅读 · 1 评论 -
安装Python3的工具包报Microsoft Visual C++ 14.0 is required的错误
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual这类型的错误,是因为缺少Microsoft Visual C++ 14.0编译环境,我是因为安装wordCloud的工具包报错。网上找了好多教程,在Microsoft Visual官网 下载的Installer安装完后,打不开,用兼容模式+管理员...原创 2020-04-05 00:11:07 · 188 阅读 · 0 评论 -
AdaBoost算法详解与python实现
AdaBoost算法详解与python实现https://tangshusen.me/2018/11/18/adaboost/转载 2020-04-01 00:44:16 · 520 阅读 · 0 评论 -
FP Tree算法原理总结(转)
FP Tree算法原理总结转自:https://www.cnblogs.com/zhengxingpeng/p/6679280.html总结得太好了。FP Tree算法原理总结 在Apriori算法原理总结中,我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Grow...转载 2020-03-29 16:45:33 · 251 阅读 · 0 评论