![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
项目
Grit-Scarlett
这个作者很懒,什么都没留下…
展开
-
Day1—达观杯智能文本处理
Day1_数据初始Task:项目任务建立模型通过长文本数据正文,预测文本对应的类别数据train_set.csv:test_set.csv:测试集数据情况Task:项目任务建立模型通过长文本数据正文,预测文本对应的类别数据数据包含2个csv文件,即train_set.csv和test_set.csv.ps:因为在外条件有限,先读取前5000行数据。train_set.csv:此数据集用...原创 2019-04-05 22:59:57 · 957 阅读 · 0 评论 -
Day2_TF-IDF
TF-IDF算法什么是TF-IDF?算法步骤代码实现什么是TF-IDF?维基百科定义:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。它是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率...原创 2019-04-07 00:53:07 · 134 阅读 · 0 评论 -
Day4_LR+SVM
Day4_LR+SVM一、逻辑回归原理一、逻辑回归原理在介绍逻辑回归前我们先来讲一下逻辑回归与线性回归的联系与区别。我们知道,线性回归是用一个线性模型去预测输入变量与输出变量之间的关系,它的输出变量的取值是连续的,其公式如下:而对于逻辑回归来说,它的输出变量值是离散的,其实质是一个分类问题,其公式如下:其中,被称为sigmoid函数,其函数图像为参考链接:https://b...原创 2019-04-11 16:33:19 · 125 阅读 · 0 评论 -
Day6_模型融合
模型融合TASK结果代码TASK1)进一步通过网格搜索法对3个模型进行调优(用5000条数据,调参时采用五折交叉验证的方式),并进行模型评估,展示代码的运行结果。(可以尝试使用其他模型)2)模型融合,模型融合方式任意,并结合之前的任务给出你的最优结果。例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。结果代码...原创 2019-04-15 22:05:16 · 165 阅读 · 0 评论 -
Day3_word2vec
Day3_word2vecword2vec代码实现word2vecword2vec是一个处理文本的双层神经网络,它的输入是一个文本语料库,输出是一组向量,即该语料库中单词的特征向量。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,CBOW),以及两种高效训练的方法:负采样(negative sampling)和...原创 2019-04-09 22:07:49 · 115 阅读 · 0 评论 -
Day5_LightGBM
LightGBM什么是Light GBM?它有什么不同?代码实现什么是Light GBM?LightGBM是一个基于决策树算法的梯度提升框架。它有什么不同?LightGBM对于树的生长使用的是Leaf-wise,而不是Level-wise。这样的做法主要是因为LightGBM认为Level-wise的做法会产生一些低信息增益的节点,浪费运算资源。其实通常来说,Level-wise对于防止过...原创 2019-04-13 21:51:46 · 177 阅读 · 0 评论