![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习分类算法
文章平均质量分 75
老三1987
这个作者很懒,什么都没留下…
展开
-
task5_模型融合
方法:1、简单加权融合 2、stacking/blending 3、boosting/bagging1.代码示例1.1 回归\分类概率-融合1.1.1 简单加权平均,结果直接融合import numpy as npimport pandas as pdfrom sklearn import metrics## 生成一些简单的样本数据,test_prei 代表第i个模型的预测值test_pre1 = [1.2, 3.2, 2.1, 6.2]test_pre2 = [0.9, 3.1,原创 2021-03-28 21:20:32 · 174 阅读 · 0 评论 -
task4_模型调参
可以参考 https://zhuanlan.zhihu.com/p/258964754?utm_source=wechat_sessionimport pandas as pdimport numpy as npfrom sklearn.metrics import f1_scoreimport osimport seaborn as snsimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings("ign原创 2021-03-25 21:24:10 · 371 阅读 · 0 评论 -
task3_特征工程
1、导入包并读取数据# 包导入import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_features#时间序列特征处理工具 Tsfresh(TimeSeries Fresh)from tsfresh.utilities.dataframe_functions import impute# 数据读取data_train = pd.read_c原创 2021-03-22 11:23:31 · 217 阅读 · 0 评论 -
task2_数据分析
载入各种数据科学与可视化库#导入warnings包,利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings('ignore')import missingno as msnoimport pandas as pdfrom pandas import DataFrameimport matplotlib.pyplot as plt import seaborn as snsimport numpy as np载入训练集和测试集#导入训原创 2021-03-18 22:06:38 · 179 阅读 · 0 评论 -
Task01 赛题理解及baseline学习
import osimport gcimport mathimport pandas as pdimport numpy as npimport lightgbm as lgbimport xgboost as xgb#from catboost import CatBoostRegressorfrom sklearn.linear_model import SGDRegressor, LinearRegression, Ridgefrom sklearn.preprocessing i原创 2021-03-16 16:58:15 · 230 阅读 · 1 评论 -
task5:模型融合
模型融合的方式:平均:a. 简单平均法b. 加权平均法投票:a. 简单投票法b. 加权投票法综合:a. 排序融合b. log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。Blending只有一层,而 Stacking有多层boosting/bagging1 平均#简单平均pre=(pre1+pre2+pre3)/3#加权平均pre=0.1*pre1+0.3*pre2+原创 2020-09-27 21:53:54 · 76 阅读 · 0 评论 -
task4:建模与调参
目标学习在金融分控领域常用的机器学习模型学习机器学习模型的建模过程与调参流程1 导入库import pandas as pd import numpy as np import warnings import os import seaborn as snsimport matplotlib.pyplot as plt """ sns 相关设置 @return: """ # 声明使用 Seaborn 样式 sns.set() # 有五种seaborn的绘图风格,它们分别是:d原创 2020-09-24 22:36:30 · 267 阅读 · 0 评论 -
task3:特征工程
目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime from tqdm import tqdm from sklearn.preprocessing import LabelEncoder from sklearn.featu原创 2020-09-21 23:56:17 · 1308 阅读 · 0 评论 -
task2:探索性数据分析(EDA)
目的EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接 下来的机器学习或者深度学习建模.了解变量间的相互关系、变量与预测值之间的存在关系。为特征工程做准备import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snstrain_data=pd.read_csv('./数据/train.csv')test_data=pd.rea原创 2020-09-18 23:50:47 · 626 阅读 · 0 评论 -
task1:赛题理解
1 赛题理解赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。1.1 学习目标理解赛题数据和目标,清楚评分体系。完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程1.2 赛题概况赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为原创 2020-09-15 22:12:05 · 188 阅读 · 0 评论 -
Task03:基于支持向量机的分类预测
1.什么是支持向量?答:样本中距离超平面最近的一些点,这些点叫做支持向量2.支持向量机的推导3.SVM的损失函数答:合页损失函数加上正则化项4.SVM的核函数有哪些,核函数的作用是什么?答:核函数的引入一方面减少了我们计算量,另一方面也减少了我们存储数据的内存使用量。常用核函数有:线性核函数、多项式核函数、高斯核函数5.硬间隔和软间隔答:硬间隔:完全线性可分;软间隔:允许个别样本点出现在间隔带里面(间隔内的那部分样本点也是支持向量)6.SVM可以做多分类吗,怎么做?答:可以7.SVM原创 2020-08-26 21:32:43 · 264 阅读 · 0 评论 -
Task02:基于决策树的分类预测
在决策树的算法中,建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法:ID3C4.5CART主要的区别就是选择的目标函数不同,ID3使用的是信息增益,C4.5使用信息增益率,CART使用的是Gini系数。信息熵是一种衡量数据混乱程度的指标,信息熵越小,则数据的“纯度”越高.熵H(Y)与条件熵H(Y|X)之差称为互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。DecisionTreeClassifier(c原创 2020-08-22 17:55:05 · 438 阅读 · 0 评论 -
Task01:基于逻辑回归的分类预测
逻辑回归模型的优劣势:优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高https://zhuanlan.zhihu.com/p/74874291与 SVM相同点都是分类算法,本质上都是在找最佳分类超平面;都是监督学习算法;都是判别式模型,判别模型不关心数据是怎么生成的,它只关心数据之间的差别,然后用差别来简单对给定的一个数据进行分类;都可以增加不同的正则项。不同点LR 是一个统计的方法,SVM 是一个几何的方法;SV.原创 2020-08-19 17:20:06 · 1094 阅读 · 0 评论