自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Day6_模型融合

模型融合TASK结果代码TASK1)进一步通过网格搜索法对3个模型进行调优(用5000条数据,调参时采用五折交叉验证的方式),并进行模型评估,展示代码的运行结果。(可以尝试使用其他模型)2)模型融合,模型融合方式任意,并结合之前的任务给出你的最优结果。例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。结果代码...

2019-04-15 22:05:16 165

原创 Day5_LightGBM

LightGBM什么是Light GBM?它有什么不同?代码实现什么是Light GBM?LightGBM是一个基于决策树算法的梯度提升框架。它有什么不同?LightGBM对于树的生长使用的是Leaf-wise,而不是Level-wise。这样的做法主要是因为LightGBM认为Level-wise的做法会产生一些低信息增益的节点,浪费运算资源。其实通常来说,Level-wise对于防止过...

2019-04-13 21:51:46 177

原创 Day4_LR+SVM

Day4_LR+SVM一、逻辑回归原理一、逻辑回归原理在介绍逻辑回归前我们先来讲一下逻辑回归与线性回归的联系与区别。我们知道,线性回归是用一个线性模型去预测输入变量与输出变量之间的关系,它的输出变量的取值是连续的,其公式如下:而对于逻辑回归来说,它的输出变量值是离散的,其实质是一个分类问题,其公式如下:其中,被称为sigmoid函数,其函数图像为参考链接:https://b...

2019-04-11 16:33:19 125

原创 Day3_word2vec

Day3_word2vecword2vec代码实现word2vecword2vec是一个处理文本的双层神经网络,它的输入是一个文本语料库,输出是一组向量,即该语料库中单词的特征向量。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,CBOW),以及两种高效训练的方法:负采样(negative sampling)和...

2019-04-09 22:07:49 115

原创 Day2_TF-IDF

TF-IDF算法什么是TF-IDF?算法步骤代码实现什么是TF-IDF?维基百科定义:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。它是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率...

2019-04-07 00:53:07 134

原创 Day1—达观杯智能文本处理

Day1_数据初始Task:项目任务建立模型通过长文本数据正文,预测文本对应的类别数据train_set.csv:test_set.csv:测试集数据情况Task:项目任务建立模型通过长文本数据正文,预测文本对应的类别数据数据包含2个csv文件,即train_set.csv和test_set.csv.ps:因为在外条件有限,先读取前5000行数据。train_set.csv:此数据集用...

2019-04-05 22:59:57 957

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除