自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 问答 (1)
  • 收藏
  • 关注

原创 集成学习-task15

集成学习案例二(蒸汽量预测)导入库和数据import warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltimport seaborn as sns# 模型import pandas as pd import numpy as np from scipy import statsimport statsmodelsfrom sklearn.model_selection import trai

2021-05-23 21:37:40 418

原创 集成学习-Task14

集成学习案例一(幸福感预测)import osimport timeimport pandas as pdimport numpy as npimport seaborn as snsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.svm import SVC,LinearSVCfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.nei

2021-05-18 20:08:12 252

原创 集成学习-Task13

Stacking集成学习算法from sklearn.datasets import load_irisfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LogisticRegressionfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.naive_bayes import GaussianNB fro

2021-05-13 20:28:50 171

原创 组队学习-Task12

Blending集成学习算法Blendingm集成学习过程(1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集 (train_set)和验证集(val_set);(2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的;(3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set 得到val_predict,test_predict1;(4) 创建第二层的模型,使用val_predict作为训练集训练第

2021-05-11 23:12:58 94

原创 集成学习-xgboost学习

XGboost相关学习from xgboost import XGBRegressor as XGBRfrom sklearn.ensemble import RandomForestRegressor as RFRfrom sklearn.linear_model import LinearRegression as LinearRfrom sklearn.datasets import load_bostonfrom sklearn.model_selection import KFold,

2021-04-26 14:05:33 310

原创 集成学习-Task10

前向分步算法由李航老师的《统计学习方法》可知:AdaBoost算法是前向分布加法算法的特例。这时,模型由基本分类器组成的加法模型,损失函数是指数函数同时,我们也应该知晓,显然这不是一种全局最优的算法梯度提升树理论这一部分看了《统计学习方法》,基本能弄懂GBDT中预测值是由所有弱分类器上的预测结果的加权求和,其中每个样本上的预测结果就是样本所在的叶子节点的均值。例子自己进行了一个相关的演算残差值与数据都能对应GBDT建模这一部分可能会对比在xgboost和sklearn

2021-04-23 21:55:47 92

原创 集成学习-Task9

Boosting-导论本章介绍的Boosting是与Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。显然,Boosting思想提高最终的预测效果是通过不断减少偏差的形式,与Bagging有着本质的不同。在Boosting这一大类方法中,笔者主要介绍两类常用的Boosting方式:Adaptive Boosting 和 Gradient Boosting 以及它们的变体Xgboost、Light

2021-04-21 00:40:30 297

原创 集成学习-task7&task8

投票法思路投票法(voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting), 使用后者进行分类叫做软投票(Soft voting)。 sklearn中的VotingClassifier是投票法的实现。硬投票与软投票实现硬投票预测结果是所有投票结果最多出现的类。from sklearn im

2021-04-13 15:12:55 365

原创 集成学习-任务5

机器学习两大典型任务,一个是回归,一个是分类,本文将总结分类项目内容。收集数据集并选择合适的特征 1. 选择度量模型性能的指标 度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。其次,在分类任务中,我们对于每个类别犯错的代价不尽相同,例如:我们将癌症患者错误预测为无癌症和无癌症患者错误预测为癌症患者,在医院和个人的代价都是不同的。为此需要有评价指标。 TP(True Positives): 被分为

2021-03-27 22:48:43 114

原创 集成学习-任务4

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineplt.style.use("ggplot")import seaborn as snsfrom sklearn import datasetsboston = datasets.load_boston() # 返回一个类似于字典的类X = boston.datay = boston.targetfeatures =

2021-03-24 22:56:55 102

原创 集中学习-任务3

优化基础模型偏差-方差的权衡E(y0−f^(x0))2=Var⁡(f^(x0))+[Bias⁡(f^(x0))]2+Var⁡(ε)E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)^{2}=\operatorname{Var}\left(\hat{f}\left(x_{0}\right)\right)+\left[\operatorname{Bias}\left(\hat{f}\left(x_{0}\right)\right)\right]^{2}+\opera

2021-03-22 22:24:30 672

原创 集成学习-任务2

完整的机器学习项目流程明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。收集数据集并选择合适的特征import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineplt.style.use("ggplot")import seaborn as snsfrom sklearn import

2021-03-18 23:05:11 139

原创 集成学习-task1

本次task1没啥好写的,基本上都是之前熟悉的内容,继续加油!

2021-03-15 23:17:14 580

原创 pandas学习-第九章-时序数据

时序数据的创建import pandas as pd import numpy as np四类时间变量[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ywu2mJqc-1593446125517)(attachment:image.png)]时间点的创立to_datetime方法pd.to_datetime('2020.1.1')pd.to_datetime('2020 1.1')pd.to_datetime('2020 1 1')pd.to_dateti

2020-06-29 23:56:08 765

原创 pandas学习-第八章

import pandas as pdimport numpy as np data=pd.read_csv(r'D:\jupyter Notebook\天池比赛\pandas学习\joyful-pandas-master\data\table.csv')data.head() Unnamed: 0 School Class ID Gender Address Height

2020-06-27 16:32:40 415

原创 第七章-文本数据

import pandas as pd import numpy as npstring类型的性质string与object的区别string类型和object不同之处有三:字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节string类型在缺失值存储或运

2020-06-26 20:23:36 254 2

原创 pandas学习-第六章

缺失数据import pandas as pd import numpy as npdata=pd.read_csv(r'D:\jupyter Notebook\天池比赛\pandas学习\joyful-pandas-master\data\table_missing.csv')data.head() School Class ID Gender Address Height W

2020-06-22 22:08:43 370

原创 pandas-综合练习

第六次-大作业import pandas as pdimport numpy as np一、2002 年-2018 年上海机动车拍照拍卖问题(1) 哪一次拍卖的中标率首次小于 5%?(2) 按年统计拍卖最低价的下列统计量:最大值、均值、0.75 分位数,要求显示在同一张表上。(3) 将第一列时间列拆分成两个列,一列为年份(格式为 20××),另一列为月份(英语缩写),添加到...

2020-05-01 16:15:33 283

原创 pandas学习—第五章

import numpy as npimport pandas as pddf=pd.read_csv('E:\jupyter Notebook\天池比赛\pandas学习\joyful-pandas-master\data\\table.csv')df.head() Unnamed: 0 School Class...

2020-04-30 19:41:42 441

原创 pandas学习-第三章(分组)

import numpy as npimport pandas as pd df=pd.read_csv('E:\jupyter Notebook\天池比赛\pandas学习\joyful-pandas-master\data\\table.csv',index_col='ID')df=df.drop(columns='Unnamed: 0')df.info()<class 'p...

2020-04-26 22:27:41 734

原创 pandas学习-第二章

import numpy as np import pandas as pd df=pd.read_csv('E:\jupyter Notebook\天池比赛\joyful-pandas-master\data\\table.csv',index_col='ID')df.head(20) Unnamed: 0 School ...

2020-04-23 07:17:41 226

原创 pandas 第十二期组队-pandas基础

import pandas as pd import numpy as nppd.__version__'1.0.3'文件的读写#csv格式data=pd.read_csv('E:\jupyter Notebook\天池比赛\joyful-pandas-master\data\\table.csv')data.head(20) ...

2020-04-20 01:31:30 694

原创 Task5

模型融合目标对于多种调参完成的模型进行模型融合完成对于多种模型的融合,提交融合结果##导入数据和库import itertoolsimport matplotlib.gridspec as gridspecfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom skl...

2020-04-04 17:35:18 84

原创 Task4

目的当我们建立好机器学习模型后,预测数据会与我们期望的有所偏差,这时我们就需要进行参数调整。模型调参调参,我们主要有3种常见的模式。贪心调参方法网格调参方法贝叶斯调参方法贪心调参方法是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,它所做出的仅仅是在某种意义上的局部最优解。选择的贪心策略必须具备无后效性网格调参方法是指当你算法模型效果不是很...

2020-04-01 17:40:15 225

原创 天池二手车比赛-EDA

这是第二次的任务打卡首先是基本流程:借鉴别人的一个思维导图,基本流程比较清楚了。1. 与官方手册有修改的的地方import seaborn as snsimport matplotlib.pyplot as pltimport scipy.stats as st #引入科学计算包,统计类plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示...

2020-03-24 20:18:23 204

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除