自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

转载 伪标签(Pseudo-Labelling)介绍:一种半监督机器学习技术

我们在解决监督机器学习的问题上取得了巨大的进步。这也意味着我们需要大量的数据来构建我们的图像分类器。但是,这并不是人类思维的学习方式。一个人的大脑不需要上百万个数据来进行训练,需要通过多次迭代来完成相同的图像来理解一个主题。它所需要的只是在基础模式上用几个指导点训练自己。显然,我们在当前的机器学习方法中缺少一些东西。我们能否可以建立一个系统,能够要求最低限度的监督,并且能够自己掌握大部分的任务。本文将介绍一种称为伪标签(Pseudo-Labelling)的技术。我会给出一个直观的解释,说明伪标签是什么,然

2020-06-25 16:15:17 3788 1

转载 伪标签:教你玩转无标签数据的半监督学习方法

对于每个机器学习项目而言,数据是基础,是不可或缺的一部分。在本文中,作者将会展示一个名为伪标签的简单的半监督学习方法,它可以通过使用无标签数据来提高机器学习模型的性能。伪标签为了训练机器学习模型,在监督学习中,数据必须是有标签的。那这是否意味着无标签的数据对于诸如分类和回归之类的监督任务就无用了呢?当然不是! 除了使用额外数据进行数据分析,还可以将无标签数据和标签数据结合起来,一同训练半监督学习模型。该方法的主旨思想其实很简单。首先,在标签数据上训练模型,然后使用经过训练的模型来预测无.

2020-06-19 23:52:08 5226

转载 伪标签(Pseudo-Labelling)介绍:一种半监督机器学习技术

我们在解决监督机器学习的问题上取得了巨大的进步。这也意味着我们需要大量的数据来构建我们的图像分类器。但是,这并不是人类思维的学习方式。一个人的大脑不需要上百万个数据来进行训练,需要通过多次迭代来完成相同的图像来理解一个主题。它所需要的只是在基础模式上用几个指导点训练自己。显然,我们在当前的机器学习方法中缺少一些东西。我们能否可以建立一个系统,能够要求最低限度的监督,并且能够自己掌握大部分的任务。本文将介绍一种称为伪标签(Pseudo-Labelling)的技术。我会给出一个直观的解释,说明伪标签是什.

2020-06-19 23:27:01 8679 2

转载 如何免费获取国外硕博学位论文全文资源

如何免费获取国外硕博学位论文全文资源?已有 42522 次阅读2017-10-31 13:25|系统分类:科研笔记|关键词:学者|硕博学位论文1 ProQuestProQuest公司是世界上最早及最大的博硕士论文收藏和供应商,该公司的学位论文数据库(ProQuest Digital Dissertation,简称PQDD)收集有160万篇国外高校的优秀博硕士论文的文摘和索引,其中100万篇有全文。PQDD在学术研究中具有十分重要的参考价值。为了能让读者更方便、更快捷地使用学位论文,...

2020-06-14 23:11:08 7340

原创 私钥签名和公钥验证交易内容全部正确后,数字货币就会在对应的账户地址间进行转移,而且确保正确无误。

《区块链实战》P50

2020-06-14 23:04:50 728

原创 SQLServer2012 代理作业自动执行SSIS dtxs包时,报“Microsoft Jet 数据库引擎打不开文件,  它已经被别的用户以独占方式打开,或没有查看数据的权限”

报错信息:已以用户 NT Service\SQLSERVERAGENT 的身份执行。 Microsoft (R) SQL Server 执行包实用工具 版本 11.0.2100.60 (32 位) 版权所有(C) Microsoft Corporation。保留所有权利。 开始时间: 上午 11:32:41 错误: 2020-06-14 11:32:42.56 代码: 0xC0202009 源: 导出昨日业务量 连接管理器“DestinationConnectionExcel”...

2020-06-14 12:03:03 3174

转载 pandas dataframe list(列表)数据列拆分成多行的方法

需要把下面的dataframe里面列的数据类型是list的列拆分成多个行:df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]})dfOut[458]: A B0 1 [1, 2]1 2 [1, 2]所用代码如下:(1)如果你要拆分的dataframe只有两列,那么使用下面的方法(亲测非常高效):df=pd.DataFrame({'A':df.A.repeat(df.B.str.len()),'B':np.concaten...

2020-06-13 11:25:35 3998

转载 【Embedding编码】(三):数据预处理:分类变量实体嵌入做特征提取

实体嵌入(embedding)目的将表格数据中的分类属性(一个至多个)向量化。1.实体嵌入简介:实体嵌入是主要应用于深度学习中处理表格分类数据的一种技术,或者更确切地说NLP领域最为常用,word2vec就是在做词的实体嵌入。 神经网络相比于当下的流行的xgboost、LGBM等树模型并不能很好地直接处理大量分类水平的分类特征。因为神经网络要求输入的分类数据进行one-hot处理。当分类特征的水平很高的时候,one-hot经常带来维度爆炸问题,紧接着就是参数爆炸,局部极小值点更多,更容易产生过拟合

2020-06-12 23:09:49 4928 1

转载 【Embedding编码】(二):分类变量的深度嵌入(Cat2Vec)

本文为 AI 研习社编译的技术博客,原标题 :Deep embedding’s for categorical variables (Cat2Vec)作者 | Prajwal Shreyas翻译 | JoccKouisFung 编辑 | 酱番梨、Pita原文链接:https://towardsdatascience.com/deep-embeddings-for-categorical-variables-cat2vec-b05c8ab63ac0在这篇博客中,我将会向你介绍如何在keras的基础

2020-06-12 23:07:06 818

原创 【Embedding编码】(一)keras:Embedding layer

Embedding layerEmbedding classtf.keras.layers.Embedding(input_dim,output_dim,embeddings_initializer=“uniform”,embeddings_regularizer=None,activity_regularizer=None,embeddings_constraint=None,mask_zero=False,input_length=None,**kwargs)Turns pos

2020-06-12 23:03:56 408

转载 MapReduce的通俗理解与入门

看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop 与MapReduce的整体有所了解了。【前言】Hadoop是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce、分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等。本文就hadoop的并行分布式计算模型MapReduce做一个简单的入门介绍。【什么是Map/

2020-06-11 14:40:13 832

原创 word论文图片一半变白的处理方式

解决方法:第一种方法: 1、选中图片,点击“格式”→“段落”,出现段落对话框: 2、将**行距设置为“单倍行距”,**点击确定即可。

2020-06-06 23:58:40 1370

转载 机器学习1-机器学习中建模过程

机器学习中建模过程数据处理特征工程模型选择寻找最佳超参数模型分析与模型融合1.数据处理1.1机器学习中使用的数据的原则属性的值和属性的名称应该具有实际的意义。去除属性中相关度高的属性去除对结果影响不大的属性合理选择关联字段1.2常见的数据预处理方法数据清洗:数据清洗的目的不仅仅是清除错误点,冗余点和数据的噪声,还要将数据按照一定的规则进行统一处理。数据集成:将多个数据源中的数据进行合并,形成一个统一的表格。如果数据量比较多,则存储于数据仓库中;若数据亮不大,则存储于文件中,常用的

2020-06-06 22:29:44 877

转载 利用pandas实现连续数据的离散化处理(分箱操作)---cut()、qcut()

Python实现连续数据的离散化处理主要基于两个函数,pandas.cut和pandas.qcut,前者根据指定分界点对连续数据进行分箱处理,后者则可以根据指定箱子的数量对连续数据进行等宽分箱处理,所谓等宽指的是每个箱子中的数据量是相同的。下面简单介绍一下这两个函数的用法:# 导入pandas包import pandas as pdages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32] # 待分箱数据bins = [18, 25, 35,.

2020-06-06 22:16:05 1350

转载 cut与qcut的区别

cut与qcut的区别GPF大数据分析师1 人赞同了该文章python 在处理数据的时候调用的方法有cut,qcut,那这两种方法有什么不同呢?两者功能相似,都是将一个Series切割成若干个分组一丶cut qcut的区别1.qcut:传入参数,要将数据分成多少组,即组的个数,具体的组距是由代码计算2,cut:传入参数,是分组依据。具体见示例二丶qcut方法(1)参数:x 要进行分组的数据,数据类型为一维数组,或Series对象;q 组数,即要将数据分成几

2020-06-06 21:04:29 1757

转载 随机搜索RandomizedSearchCV原理

文章目录一、问题描述及代码示例二、RandomSearchCV是如何"随机搜索"的三、RandomSearch为什么会有效四、其他——内容整理自RandomizedSearchCV源代码和论文Random Search for Hyper-Parameter Optimization,供有需要的同学参考。一、问题描述及代码示例(1)超参数优化也就是常说的调参,python-sklearn里常用的有GridSearchCV和RandomizedSearchCV可以用。其中GridSearchC

2020-06-03 22:26:21 1881

转载 一个RandomizedSearchCV和GridSearchCV组合使用调参的例子------先随机大致搜索,再网格精细化搜索

温度预测示例&参数优化工具RandomizedSearchCVtaon关注0.1292019.12.06 18:18:08字数 2,203阅读 523一般情况下,我们做数据挖掘任务都是按照“数据预处理 - 特征工程 - 构建模型(使用默认参数或经验参数) - 模型评估 - 参数优化 - 模型固定”这样一个流程来处理问题。这一小节,我们要讨论的主题就是参数优化,前面我们讨论过GridSearchCV(网格搜索)这个工具,它是对我们的参数进行组合,选取效果最好的那组参数。d.

2020-06-03 22:20:47 2192

原创 利用sklearn的Learning curve和Validation curve工具绘图评估模型的过拟合和欠拟合

3.5. Validation curves: plotting scores to evaluate modelsEvery estimator has its advantages and drawbacks. Its generalization error can be decomposed in terms of bias, variance and noise. Thebiasof an estimator is its average error for different train..

2020-06-03 15:23:02 614

原创 偏差方差和欠拟合过拟合的判断方法

2020-06-03 11:26:23 160

转载 Complete Machine Learning Guide to Parameter Tuning in Gradient Boosting (GBM) in Python

Complete Machine Learning Guide to Parameter Tuning in Gradient Boosting (GBM) in PythonAARSHAY JAIN,FEBRUARY 21, 2016OverviewLearn parameter tuning in gradient boosting algorithm using Python Understand how to adjust bias-variance trade-off in mac.

2020-06-02 22:59:28 281

转载 使用sklearn进行集成学习——实践

目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参?  2.1 调参的目标:偏差和方差的协调  2.2 参数对整体模型性能的影响  2.3 一个朴实的方案:贪心的坐标下降法    2.3.1 Random Forest调参案例:Digit Recognizer      2.3.1.1 调整过程影响类参数      2.3.1.2 调整子模型影响类参数    2.3.2 Gradient Tree Boosting调参案例:Hackath

2020-06-02 18:32:53 367

转载 使用sklearn进行集成学习——理论

目录1 前言2 集成学习是什么?3 偏差和方差  3.1 模型的偏差和方差是什么?  3.2 bagging的偏差和方差  3.3 boosting的偏差和方差  3.4 模型的独立性  3.5 小结4 Gradient Boosting  4.1 拟合残差  4.2 拟合反向梯度    4.2.1 契机:引入损失函数    4.2.2 难题一:任意损失函数的最优化    4.2.3 难题二:无法对测试样本计算反向梯度  4.3 常见的损失函数  4.4 步子太大容易扯着蛋

2020-06-02 18:19:21 241

转载 Competitive GBDT Specification and Optimization Workshop

https://www.kaggle.com/lucamassaron/kaggle-days-paris-gbdt-workshopCompetitive GBDT Specification and Optimization WorkshopInstructorsLuca Massaron@lmassaron- Data Scientist / Author / Google Developer Expert in Machine Learning Pietro Marinelli@...

2020-06-02 17:10:00 893

转载 机器学习系列(11)_Python中Gradient Boosting Machine(GBM)调参方法详解

原文地址:Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain原文翻译与校对:@酒酒Angie(drmr_anki@qq.com) && 寒小阳(hanxiaoyang.ml@gmail.com)时间:2016年9月。出处:http://blog.csdn.net/han_xiaoyang/article/details/52663170声明:版权所有,转载请联系

2020-06-02 16:53:24 819

转载 GBDT和XGB算法问题总结

集成模型知识整理GBDT相关的问题总结1GBDT为什么用CART回归树做基学习器?2GBDT不擅长处理离散特征,你在应用的时候是怎么处理的3GBDT在回归和多分类当中有什么不同,在预测的时候的流程是怎样的4GBDT如果损失函数换成exponent会怎样,有什么变化?5GBDT的优点和局限性有哪些?6GBDT在什么情况下比逻辑回归算法要差?7GBDT与RF区别8GBDT和xgb的区别有哪些?9GBDT和RF哪个树比较深10为什么gbdt不能用分类树?XGB算法问题总结1为什么xgb要

2020-06-02 16:52:08 2714 1

转载 scikit-learn 梯度提升树(GBDT)调参小结

转载自:https://www.cnblogs.com/pinard/p/6143927.html 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。1.scikit-learn GBDT类库概述    在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类。.

2020-06-01 23:10:02 591

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除