自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 学习笔记-task6-评估模型的性能并调参

先使用网格搜索进行超参数调优:# 使用网格搜索进行超参数调优:# 方式1:网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_time = time.time()pipe_svc = make_pipeline(StandardScaler(),SVC(random_state=1))param_range = [0.0001

2021-03-30 00:27:14 70

转载 学习笔记-task5掌握基本的分类模型

数据集采用的IRIS鸢尾花数据集,先读取数据from sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)data['target'] = ydata.head()分类的评价标准对于模型的评价,通常采用通过混淆矩阵计算出的各项指标,针对不同的情况有不同的

2021-03-27 22:57:05 79

转载 学习笔记-task4 对模型超参数进行调优(调参)

参数与超参数参数:可以使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为参数;例如:岭回归中的参数www.模型参数是模型内部的配置变量,其值可以根据数据进行估计。进行预测时需要参数。它参数定义了可使用的模型。参数是从数据估计或获悉的。参数通常不由编程者手动设置。参数通常被保存为学习模型的一部分。参数是机器学习算法的关键,它们通常由过去的训练数据中总结得出 。超参数: 我们无法使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为超参数。例如:岭回归中的参数λ\lambda

2021-03-24 21:48:02 164

转载 学习笔记-Task3优化基础模型-偏差与方差理论

我们使用数据集去估计模型的参数,如线性回归模型中的参数w,那么这个数据集我们称为训练数据集,简称训练集。我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项,使得我们模型在训练集的每一个数据点都恰好位于曲线上,那这时候模型在训练集的损失值也就是误差为0。但是这种拟合下却也不是最完美的,容易造成过拟合,这类的模型只是在训练集上的误差较小,但在测试集上的误差通常比较大,而我们

2021-03-22 17:56:52 173

原创 学习笔记-Task2基本的回归模型

线性回归模型线性回归就是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w :假设:数据集D={(x1,y1),...,(xN,yN)}D = \{(x_1,y_1),...,(x_N,y_N) \}D={(x1​,y1​),...,(xN​,yN​)},xi∈Rp,yi∈R,i=1,2,...,Nx_i \in R^p,y_i \in R,i = 1,2,...,Nxi​∈Rp,yi​∈R,i=1,2,...,N,X=(x1,

2021-03-18 14:06:38 83

原创 机器学习的三大主要任务

导论机器学习根据是否有因变量分为:有监督学习和无监督学习。有监督学习:给定某些特征去估计因变量;无监督学习:没有因变量,建模的目的是学习数据本身的结构和关系;有监督学习又根据因变量是否连续可分为:回归和分类。回归:因变量是连续型变量;分类:因变量是离散型变量;# 引入相关科学计算包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline plt.style.us

2021-03-15 22:13:49 105

原创 学习笔记-数据挖掘(时间序列)-时间序列ARIMA建模-建模预测

This script is used for the online course “资金流入流出” on Tianchi platformimport pandas as pdimport sklearn as skrimport numpy as npimport datetimeimport matplotlib.pyplot as pltimport seaborn as snsfrom dateutil.relativedelta import relativedeltafrom

2020-08-24 15:35:47 571

原创 学习笔记-数据挖掘(时间序列)-特征工程

Note! This script can only extract features for prediction Purchase. Try to replace ‘Purchase’ with ‘Redeem’ in this script if you want generate features for Redeem.import pandas as pdimport numpy as npimport datetimeimport shapimport eli5import se

2020-08-24 15:28:00 806

原创 学习笔记-数据挖掘(时间序列)-时间序列ARIMA建模

时间序列建模时间序列的各种变化都可以归纳成四大类因素综合 时间序列的各种变化都可以归纳成四大类因素综合 影响长期 趋势 (trend (trend ):会 导致序列出现明显的长期 导致序列出现明显的长期 趋势循环 波动 (circle (circle ):会 导致序列呈现出周期性 导致序列呈现出周期性 波动季节性 变化 (season (season): 会导致序列呈现出和季节变化相关的稳定周期波动 导致序列呈现出和季节变化相关的稳定周期波动 .随机 波动 (immediate (immedia

2020-08-21 23:10:51 1794

原创 学习笔记-数据挖掘(时间序列)-探索性数据分析

学习笔记-数据挖掘(时间序列)-探索性数据分析探索性数据分析常见数据探索方法数据来源及介绍用户信息表用户申购赎回数据表收益率表上海银行间同业拆放利率(Shibor)表数据探索载入各种数据科学以及可视化库载入数据绘制时序图对weekday的特征分析月份特征分析日期特征分析异常值分析节假日以及特殊时期分析对于节假日周边日期的分析清明节劳动节端午节大额交易分析对于银行及支付宝利率的分析用户特征分析分析大额用户用户交易频次分析分析用户的其他属性其他分析探索性数据分析探索性数据分析(Exploratory Dat

2020-08-20 13:38:40 1748

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除