自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Simone_future的博客

数据挖掘学习-ivy的未来要发光

  • 博客(21)
  • 收藏
  • 关注

原创 Datawhale CV--Task5 模型集成

模型集成集成学习方法、深度学习中的集成学习和结果后处理思路。集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期,如果硬件设备不允许建议选取留出法,如果需要追求精度可以使用交叉验证的方法。下面假设构建了10折交叉验证,训练得到10个CNN模型。那么在10个CNN模型可以使用如下方式进行集成:对预测的结果的概率值进行平均,然后解码

2020-06-02 23:53:29 167

原创 Datawhale CV--Task4 模型训练与验证

学习来源:https://github.com/datawhalechina/team-learning/blob/master/03%20计算机视觉/计算机视觉实践%EF%BC%88街景字符编码识别%EF%BC%89/Datawhale%20零基础入门CV%20-%20Task%2004%20模型训练与验证%20.md一个成熟合格的深度学习训练流程至少具备以下功能:在训练集上进行训练,并在验证集上进行验证;模型可以保存最优的权重,并读取权重;记录下训练集和验证集的精度,便于调参。模型训练与验

2020-05-30 22:23:43 291

原创 Datawhale CV--Task3 字符识别模型

主要利用卷积神经网络(Convolutional Neural Network, CNN),搭建一个字符识别模型。学习来源:https://github.com/datawhalechina/team-learning/blob/master/03%20计算机视觉/计算机视觉实践%EF%BC%88街景字符编码识别%EF%BC%89/Datawhale%20零基础入门CV%20-%20Task%2003%20字符识别模型.mdCNN介绍卷积神经网络(简称CNN)是一类特殊的人工神经网络,是深度学习中重要

2020-05-26 23:05:58 211

原创 Datawhale CV--Task2 数据读取与扩增

接上次import pytorch 失败使用命令:conda install torchvision=0.2.1就成功啦数据读取与数据扩增1 数据扩增介绍在深度学习中数据扩增方法非常重要,数据扩增可以增加训练集的样本,同时也可以有效缓解模型过拟合的情况,也可以给模型带来的更强的泛化能力。数据扩增为什么有用?在深度学习模型的训练过程中,数据扩增是必不可少的环节。现有深度学习的参数非常多,一般的模型可训练的参数量基本上都是万到百万级别,而训练集样本的数量很难有这么多。其次数据扩增可以扩展样本空

2020-05-23 22:44:44 161

原创 Datawhale CV--Task1 赛题理解

网页地址:https://github.com/datawhalechina/team-learning/blob/master/03%20%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E5%AE%9E%E8%B7%B5%EF%BC%88%E8%A1%97%E6%99%AF%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81%E8%AF%86%E5%8

2020-05-20 23:27:19 230

原创 Joyful Pandas--综合练习

习题答案参考来源:https://blog.csdn.net/qq_43654994/article/details/105882917https://blog.csdn.net/KF_Guan/article/details/105879341部分代码:import numpy as npimport pandas as pd一、2002 年-2018 年上海机动车拍照拍卖df = ...

2020-05-01 23:14:25 424

原创 机器学习算法基础--Task5 SVM

学习来源:https://github.com/datawhalechina/team-learning/blob/master/机器学习算法基础/Task5%20svm.md学习内容:SVM 硬间隔原理SVM 软间隔SMO 求解SVM代码设计使用SVM对鸢尾花数据集进行分类from sklearn import svmfrom sklearn.svm import SVCfro...

2020-05-01 21:36:19 160

原创 Joyful pandas——Task05合并

学习来源:https://nbviewer.jupyter.org/github/GYHHAHA/Joyful-Pandas/blob/master/第5章%20合并.ipynb一、append与assignappend方法(a)利用序列添加行(必须指定name)df_append = df.loc[:3,['Gender','Height']].copy()df_appends ...

2020-04-30 21:51:04 142

原创 Joyful pandas--Task04 变形

学习来源:https://nbviewer.jupyter.org/github/GYHHAHA/Joyful-Pandas/blob/master/第4章%20变形.ipynb一、透视表1. pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols:df.pivot(index...

2020-04-28 22:59:59 181 1

原创 机器学习基础——Task4 条件随机场

学习来源:https://nbviewer.jupyter.org/github/datawhalechina/team-learning/blob/master/机器学习算法基础/Task4%20条件随机场.ipynb参考资料:https://blog.csdn.net/dcx_abc/article/details/78319246条件随机场马尔可夫过程定义隐马尔科夫算法定义条件...

2020-04-27 22:47:21 199

原创 Joyful Pandas--Task03分组

学习来源:https://nbviewer.jupyter.org/github/GYHHAHA/Joyful-Pandas/blob/master/第3章%20分组.ipynb一、SAC过程内涵SAC指的是分组操作中的split-apply-combine过程其中split指基于某一些规则,将数据拆成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一...

2020-04-27 11:30:58 211

原创 机器学习基础-Task3 EM算法

EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题:E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等。EM算法引入概率模型有时候既含有观测变量,又含有隐变量或潜在变量,如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计方法估计模型参数,但是...

2020-04-25 22:29:54 221

原创 Joyful pandas--Task02 索引

这章内容太多了(哭唧唧),先这样,往后来补充吧。。理论部分熟练掌握多种单层索引方式及其异同掌握和理解多级索引操作熟悉常用索引设定方法及其区别掌握索引函数、去重函数和抽样函数练习部分UFO数据集分析口袋妖怪数据集分析一、单级索引loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类,其中iloc表示位置索引,loc表示标签索引,[]也具有很大的便利性,各有特点...

2020-04-23 22:30:58 192

原创 机器学习基础-Task2 Bayes_plus

学习来源:https://github.com/datawhalechina/team-learning/blob/master/机器学习算法基础/Task2%20bayes_plus.ipynb知识点梳理:1.相关概念(生成模型、判别模型)2.先验概率、条件概率3.贝叶斯决策理论4.贝叶斯定理公式5.极值问题情况下的每个类的分类概率6.下溢问题如何解决7.零概率问题如何解决?8...

2020-04-23 16:51:35 160

原创 机器学习算法基础-Task1 Linear Regression

学习来源:https://github.com/datawhalechina/team-learning/tree/master/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E5%9F%BA%E7%A1%80https://github.com/datawhalechina/team-learning/blob/master/机器...

2020-04-21 11:32:55 209

原创 Task01:Pandas基础

理论部分:常见文件格式的读写操作理解并熟悉 Series 和 DataFrame 的重要属性和重要方法掌握各类排序(索引排序和值排序、单级排序和多级排序练习部分:4. 《权利的游戏》剧本数据集分析5. 科比投篮数据集分析拿到数据必然先要读取它,分析完了数据必然是要保存它,读取了数据之后,我们面对了怎样的对象(Series? or Dataframe?)是第一重要的课题,因此了解序...

2020-04-20 22:24:18 141

原创 二手车交易价格预测:模型融合

模型融合听起来高大上,感觉其实是三个臭皮匠顶个诸葛亮的意思(弱弱弱弱地说)之前用过加权平均法,但是没有完整地学习模型融合方法,由此结合赛题整理一些资料打卡如下:资料来源:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.15.1cd8593aDCDfxr&postId=95535学习内容模型融合...

2020-04-04 21:45:05 453

原创 二手车交易价格预测:建模调参

学习内容1.线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;2.模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;3.嵌入式特征选择:Lasso回归;Ridge回归;决策树;4.模型对比:常用线性模型;常用非线性模型;5.模型调参:贪心调参方法;网格调参方法;贝叶斯调...

2020-04-01 21:50:13 304

原创 二手车交易价格预测:特征工程

首先解决下第一篇博客中遗留的小问题:“打印结果时,由于行数太多,中间省略号的数据如何让查看?”pandas.set_option() 可以设置pandas相关的参数,从而改变默认参数。 打印pandas数据时,默认是输出100行,多的话会输出…省略号。可加入下面的代码解决#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd....

2020-03-28 21:34:18 263

原创 二手车交易价格预测:EDA-数据探索性分析

昨日学习了:pandas读取csv的数据head()–用于简单浏览数据形式,前五行info()–可以看到每列名称,查询数据大小,类型及是否含有缺失值describe()–数据的统计信息,包括mean,min,max,25%,50%,75%,及std今日用法学习:通过’.columns’ ,得到各列名称通过‘.shape’得到矩阵大小fillna(-1)将缺省值用-1代替定义了一个统...

2020-03-24 20:52:12 217

原创 二手车交易价格赛题及数据初步分析

二手车交易价格预测数据初步分析赛题分析数据分析赛题分析训练集共有15万条数据,测试集A有5万条。包含31个变量,Index([‘SaleID’, ‘name’, ‘regDate’, ‘model’, ‘brand’, ‘bodyType’, ‘fuelType’,‘gearbox’, ‘power’, ‘kilometer’, ‘regionCode’, ‘seller’, ‘offerTy...

2020-03-21 17:34:06 327

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除