自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 集成学习 Task08 案例学习

目录一、案例一 (幸福感预测)1. 问题描述2.数据3.建模二、案例二 (蒸汽量预测)1. 问题描述2.数据3.特征工程一、案例一 (幸福感预测)1. 问题描述比赛的数据使用的是官方的《中国综合社会调查(CGSS)》文件中的调查结果中的数据,其共包含有139个维度的特征,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务)等特征。2.数据使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感

2021-07-31 22:49:37 154

原创 集成学习 Task07 Stacking和案例一

目录一、Blending集成学习算法二、Stacking集成学习算法三、Blending与Stacking对比一、Blending集成学习算法下面我们来详细讨论下这个Blending集成学习方式:(1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);(2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的;(3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_

2021-07-28 22:31:21 131

原创 集成学习 Task06 Boosting

目录前言一、Boosting的基本思路二、使用步骤1.引入库2.读入数据总结前言提示:以下是本篇文章正文内容,下面案例可供参考一、Boosting的基本思路###“强可学习"和"弱可学习”示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn

2021-07-24 22:31:02 152 1

原创 集成学习 Task05 Bagging

目录前言一、投票法的思路二、投票法的原理2.读入数据总结前言一、投票法的思路投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。一般情况下,错误总是发生在局部,因此融合多个数据是降低误差的一个好方法,这就是投票法的基本思路。对于回归模型来说,投票法最终的预测结果是多个其他回归模型预测结果的平均值。对于分类模型,硬投票法的预测结果是多个模型预测结果中出现次数最多的类别,软投票对各类预测结果的概率进行求和,最终选取概率之和最大的类标签。二、投票法的原理投票法是.

2021-07-22 21:27:24 130

原创 集成学习 Task04 机器学习基础(三)

目录二、使用sklearn构建完整的机器学习项目2.使用sklearn构建完整的分类项目(1) 收集数据集并选择合适的特征(2) 选择度量模型性能的指标(3) 选择具体的模型并进行训练(4) 评估模型的性能并调参三、总结二、使用sklearn构建完整的机器学习项目2.使用sklearn构建完整的分类项目回归和分类问题回归问题是连续的因变量,分类问题是离散变量。但都是从已知变量到未知变量的映射。分类问题可以在回归问题基础上增加归一化函数。(1) 收集数据集并选择合适的特征(2) 选择度..

2021-07-20 22:10:47 257

原创 集成学习 Task03 机器学习基础(二)

集成学习 Task03 机器学习基础(二)二、完整机器学习项目流程(续)4. 优化基础模型5. 对模型超参数进行调优(调参)二、完整机器学习项目流程(续)4. 优化基础模型我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项。但是:目的是让模型在未知且情况复杂的测试数据上表现优异。(a) 训练均方误差与测试均方误差过拟合的问题(b) 偏差-方差的权衡偏差和方

2021-07-17 22:27:03 91

原创 集成学习 Task02 回归问题

集成学习 Task02 回归问题一、机器学习导论二、使用sklearn构建完整的机器学习项目流程1. 收集数据集并选择合适的特征。2. 选择度量模型性能的指标。3. 选择具体的模型并进行训练以优化模型。4.评估模型的性能并调参。一、机器学习导论有监督学习无监督学习我们可以使用sklearn生成符合自身需求的数据集,下面我们用其中几个函数例子来生成无因变量的数据集:https://scikit-learn.org/stable/modules/classes.html?highlight=datas

2021-07-15 21:52:58 123

原创 集成学习 Task01 机器学习数学基础

集成学习 Task01 机器学习数学基础一、学习主题二、学习内容高等数学线性代数一、学习主题快速复习以下数学知识:高等数学和线性代数和概率论等知识;完成阶段一作业二、学习内容高等数学1.多元函数(1)n维空间: 【元素+对应关系】设 nnn 为取定的一个正整数,我们用 Rn\mathbf{R}^{n}Rn 表示 nnn 元有序实数组 (x1,x2,⋯ ,\left(x_{1}, x_{2}, \cdots,\right.(x1​,x2​,⋯,xn)\left.x_{n

2021-07-13 23:10:37 136 2

原创 学术前沿趋势分析 Task5:作者信息关联

学术前沿趋势分析 Task5:作者信息关联一、任务说明二、任务思路图统计指标三、具体代码实现及解释1、导入数据2、创建作者链接的无向图一、任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘二、任务思路将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系。这里要用到复杂网络中图的知识:Graph

2021-01-25 11:01:29 171

原创 学术前沿趋势分析 Task4:论文种类分类

学术前沿趋势分析 Task4:论文种类分类一、任务说明二、任务思路三、具体代码实现及解释1、导入数据2、使用TF-IDF提取特征3、XGBoost模型4、深度学习方法一、任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;二、任务思路我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;选取title和abstract特征字段。对论文类别进行处理;构建文本分类

2021-01-22 13:53:33 429

原创 新手GPU详细配置步骤

新手GPU详细配置步骤一、 查询计算机相关信息二、 安装NVIDIA驱动三、 MSVC 2015 update3 安装四、 安装CUDA9.0五、 安装cuDnn7六、 安装tensorflow-gpu 1.10七、 测试参考资料去年毕业论文想使用CNN跑代码,用CPU太慢了,mnist手写数字识别数据集运行了将近半个小时,非常不利于之后调试,所以进行了GPU配置。现在重新发一下配置过程。电脑基本配置:Dell笔记本,CPU Inter Core i7-8750H,GPU NVIDIA GeForce

2021-01-22 11:23:41 8811 2

原创 学术前沿趋势分析 Task3:论文代码统计

学术前沿趋势分析 Task3:论文代码统计一、任务说明二、任务思路二级目录三级目录一、任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;二、任务思路在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;二级目录三级目录...

2021-01-19 14:17:26 190

原创 学术前沿趋势分析 Task2:论文作者统计

学术前沿趋势分析 Task2:论文作者统计一、任务说明二、任务思路三、具体代码实现及解释1、导入数据2、作者统计1)统计所有作者姓名出现频率的Top102)统计所有作者姓的出现频率的Top10;3)统计所有作者姓第一个字符的评率;一、任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;二、任务思路首先导入数据集,只保留作者信息(authors,author

2021-01-15 20:36:16 225 2

原创 学术前沿趋势分析 Task1:论文数据统计

任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目数据及背景数据及来源:https://www.kaggle.com/Cornell-University/arxiv数据集格式如下:id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者

2021-01-13 09:57:10 524

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除