机器学习我不学
文章平均质量分 87
机器都学习了,还让我学干什么
浮豹
因为我不曾见过海洋
展开
-
判断两列是否有相关性关系的一个例子
如果我们想衡量成绩与学习时间之间的关系,可以记录每门课程的成绩和学习时间,然后计算它们之间的相关性。如果发现学习时间越长,成绩也越高,或者学习时间越短,成绩也越低,那么可以说它们之间存在单调关系,即一个变量的增加或减少会导致另一个变量的相应增加或减少。但是,如果两个变量之间的关系不是单调的,例如学习时间很长或很短时成绩都很低,此时它们之间就不存在单调关系。这种排名关系就是一种顺序关系。因此,顺序关系是指两个变量之间的相对大小关系,单调关系则是指一个变量的增加或减少导致另一个变量的相应增加或减少的关系。原创 2023-03-14 18:03:12 · 774 阅读 · 0 评论 -
常见的相关性分析
相关性分析原创 2023-03-14 16:15:52 · 3270 阅读 · 0 评论 -
python自带数据的模型合集
用现成的数据集搞现成的模型原创 2023-03-07 16:20:46 · 1870 阅读 · 0 评论 -
Python 金融风控评分卡建模全流程
本文摘要本文将带领读者一起进行完整的建模全流程,了解银行风控是如何做的。并提供kaggle代码。首先讲述评分卡的分类、优缺点。接下来,结合完整的可以马上运行的代码,中间穿插理论,来讲解评分卡的开发流程。最后,把方法论再梳理一次,让读者在了解全流程后,在概念上理解再加深。本文还提供了完整的全流程代码,读者打开https://www.kaggle.com/orange90/credit-scorecard-example,结合代码来读本文,会理解更深。一、评分卡的分类在金融风控领域,无人不晓的应该是评转载 2021-04-19 14:10:06 · 1122 阅读 · 0 评论 -
关于选取模型评估指标
选取模型评估指标原创 2020-11-13 15:54:16 · 2544 阅读 · 0 评论 -
模型数据不平衡的采样方法--自带数据集实例,闪电五连鞭版
当时看到这文章 我啪!就点进来了! 速度很快啊原创 2020-11-12 16:32:25 · 1271 阅读 · 0 评论 -
如何实现机器学习模型的比较选择和准确性提升(python自带数据集及代码)
饭送嘴边了 快张张嘴啊!!原创 2020-11-09 15:28:06 · 1583 阅读 · 0 评论 -
数据标准化preprocessing.scale & StandardScalers
标准化我们知道,在训练模型的时候,要输入features,即因子,也叫特征。对于同一个特征,不同的样本中的取值可能会相差非常大,一些异常小或异常大的数据会误导模型的正确训练;另外,如果数据的分布很分散也会影响训练结果。以上两种方式都体现在方差会非常大。此时,我们可以将特征中的值进行标准差标准化,即转换为均值为0,方差为1的正态分布。所以在训练模型之前,一定要对特征的数据分布进行探索,并考虑是否有必要将数据进行标准化。 标准化的方式一: 使用preprocessing.scale()from原创 2020-11-09 11:22:08 · 1547 阅读 · 0 评论 -
无graphviz的决策树可视化及查看树结构方法
决策树可视化cn=['0','1']# Setting dpi = 300 to make image clearer than defaultfig, axes = plt.subplots(nrows = 1,ncols = 1,figsize = (25,30), dpi=300)tree.plot_tree(tree, filled = True);fig.savefig('tree.png')决策树结构查看def get_code(tree, featur原创 2020-11-06 17:16:52 · 547 阅读 · 1 评论 -
Python--如何计算皮尔逊相关系数(Pearson correlation coefficient)
皮尔逊系数在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs)。用于衡量两个变量X和Y之间的线性相关相关关系,值域在-1与1之间。python计算方法有三种方式根据公式手写def cal_pccs(x, y, n): """ warning: data format must be narra原创 2020-10-24 22:08:02 · 9332 阅读 · 2 评论 -
史上最全机器学习特征工程总结
你点不点开,不点开我打你了原创 2020-10-21 11:46:54 · 572 阅读 · 1 评论 -
为什么每次在机器学习中获得不同的结果?
一、基础知识:在应用机器学习中,我们对数据集运行机器学习“算法”以获得机器学习“模型”。然后可以根据训练期间未使用的数据评估模型,也可以根据训练期间未看到的新数据对模型进行预测。算法:程序在产生模型的数据上运行(例如,训练或学习)。模型:用于对数据进行预测的数据结构和系数。有监督的机器学习意味着我们有带有输入和输出变量(列)的示例(行)。我们无法编写代码来预测给定输入的输出,因为它太难了,因此我们使用机器学习算法来学习如何根据给定历史示例的输入来预测输出。这就是所谓的函数逼近,我们正在学习或寻原创 2020-10-19 14:51:04 · 8230 阅读 · 0 评论 -
选取最优模型--scikit-learn的Python中抽查回归机器学习算法
全网最全,还教你计算均方误差原创 2020-10-16 12:39:29 · 882 阅读 · 1 评论 -
机器学习模型中,偏差与方差的权衡及计算
渣男,偏差和方差你总得选一个吧!!!原创 2020-10-14 15:56:19 · 3142 阅读 · 0 评论 -
机器学习建模菜鸡模版一本通
一、数据读入:%pythonimport xgbt_model%pythonimport pandas_utils'''titanic数据集字段说明: Survived:0代表死亡,1代表存活【y标签】 Pclass:乘客所持票类,有三种值(1,2,3) 【转换成onehot编码】 Name:乘客姓名 【舍去】 Sex:乘客性别 【转换成bool特征】 Age:乘客年龄(有缺失) 【数值特征,添加“年龄是否缺失”作为辅助特征】 SibSp:乘客原创 2020-09-16 11:42:48 · 280 阅读 · 0 评论 -
Pyhton--家用电器用户行为分析与事件识别--多层神经网络
看完这篇 再也不怕看不出谁在洗澡原创 2020-05-26 11:37:32 · 1876 阅读 · 4 评论 -
几种归一化方法(Normalization Method)python实现
(0,1)标准化Z-score标准化Sigmoid函数三种归一化原理和python实现转载 2020-05-22 13:53:34 · 1500 阅读 · 0 评论 -
Python神经网络模型--Sequential应用举例
本篇文章都是Sequential应用的例子如果想要了解模型,可以先看一下这篇文章:Sequential模型详解下面是样例展示:这里有几个可以帮助你开始的例子!在 examples 目录 中,你可以找到真实数据集的示例模型:CIFAR10 小图片分类:具有实时数据增强的卷积神经网络 (CNN)IMDB 电影评论情感分类:基于词序列的 LSTM Reuters新闻主题分类:多层感知器 (MLP) MNIST 手写数字分类:MLP 和 CNN基于 LSTM 的字符级文本生成基于多层感知器原创 2020-05-20 11:02:14 · 11034 阅读 · 0 评论 -
Python--时间序列一本通----实例大舞台,有码你就来
鲁迅说---学了这篇以后再没有做不了的时间序列原创 2020-05-14 17:50:20 · 641 阅读 · 0 评论 -
Python--KMeans聚类实例--航空公司客户价值分析
数据清洗RFM KMeans聚类原创 2020-05-11 17:34:23 · 4003 阅读 · 0 评论 -
Python决策树实例--电力窃漏电用户自动识别概述
Lagrange插值填补缺失决策树模型混淆矩阵ROC曲线原创 2020-05-09 20:52:01 · 1077 阅读 · 0 评论 -
Kaggle--Predict Future Sales--Python时间序列Gradient Boosting回归
相关系数矩阵GradientBoostingRegressor模型RMSE检验原创 2020-05-08 14:49:54 · 851 阅读 · 0 评论 -
kaggle----NLP线性回归---Real or Not? NLP with Disaster Tweets
相关性检测ridge regression回归模型F1检验原创 2020-05-06 16:32:01 · 1340 阅读 · 0 评论 -
kaggle--House Price(房价预测)--线性回归模型
相关系数矩阵异常值处理get_dummies去除量纲交叉验证原创 2020-03-11 09:50:26 · 3789 阅读 · 2 评论 -
kaggle--Digital Recognition(数字识别)--kNN算法
关于kaggle-----Digital Recognition(数字识别)项目的算法详解,题目链接:https://www.kaggle.com/c/digit-recognizer需说明,因为本题目使用了KNN算法,所以运行时会十分缓慢,本条也在KNN算法的详解中有提到,如果做尝试需等待很长时间,实际运行出的数据为2w8,可根据运行中的打印输出内容推算处理时间。全代码以下为项目全代码...原创 2020-03-06 17:02:31 · 469 阅读 · 0 评论 -
KNN算法--简化入门总结
训练集与测试集在机器学习中,数据有两个集合,一个叫做训练集-train:用于训练算法模型,即已经知道我们所要求的数值,用以生成合适的算法模型;另一个叫做测试集-test:用于测试这个生成的模型可靠性。KNN算法简介kNN算法,K最近邻(k-NearestNeighbor)分类算法:从训练样本集中选择k个与测试样本“距离”最近的样本,这k个样本中出现频率最高的类别即作为测试样本的类别。kNN...原创 2020-03-06 14:41:25 · 308 阅读 · 0 评论 -
kaggle--泰坦尼克之灾--Python--图文详解
关联分析,get_dummies特征值幻化,RandomForestRogressor填充缺失值,交叉验证原创 2020-01-13 17:33:37 · 1353 阅读 · 2 评论