数据竞赛
文章平均质量分 92
数据竞赛
NLP_victor
这个作者很懒,什么都没留下…
展开
-
食物声音识别:CNN
1、数据集来自Eating Sound Collection,数据集中包含20种不同食物的咀嚼声音,赛题任务是给这些声音数据建模,准确分类。https://tianchi.aliyun.com/competition/entrance/531887/information原创 2021-04-13 21:07:14 · 1092 阅读 · 2 评论 -
新闻文本分类任务
https://tianchi.aliyun.com/competition/entrance/531810/introductionhttps://tianchi.aliyun.com/notebook-ai/detail?postId=118252原创 2020-07-19 23:07:48 · 1067 阅读 · 0 评论 -
TianChi新闻推荐03:排序模型+模型融合
Task05 天池新闻推荐入门赛之【排序模型+模型融合】http://datawhale.club/t/topic/202排序模型通过召回的操作, 已经进行了问题规模的缩减,对于每个用户, 选择出了N篇文章作为了候选集, 并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习, 然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,原创 2020-12-06 15:32:44 · 161 阅读 · 0 评论 -
TianChi新闻推荐02:多路召回+特征工程
faissfaiss工具包一般使用在推荐系统中的向量召回部分。在做向量召回的时候要么是u2u,u2i或者i2i,这里的u和i指的是user和item. 在实际的场景中user和item的数量都是海量的,最容易想到的基于向量相似度的召回就是使用两层循环遍历user列表或者item列表计算两个向量的相似度, 但是这样做在面对海量数据是不切实际的,faiss就是用来加速计算某个查询向量最相似的topk个索引向量。faiss使用了PCA和PQ(Product quantization乘积量化)两种技术原创 2020-11-30 20:23:08 · 321 阅读 · 0 评论 -
TianChi新闻推荐01:协同过滤itemCF
1、介绍https://tianchi.aliyun.com/competition/entrance/531842/information赛题以预测用户未来点击新闻文章为任务,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。 从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。数据集train_click_log.c原创 2020-11-25 20:41:01 · 288 阅读 · 0 评论 -
“达观杯”文本智能处理挑战赛③:特征工程之词嵌入Word2Vec
1、Word2VecGoogle 团队的 Word2Vec,其主要包含两个模型:跳字模型(Skip-Gram)和连续词袋模型(Continuous Bag of Words,简称CBOW),以及两种高效训练的方法:负采样(Negative Sampling)和层序 Softmax(Hierarchical Softmax)。之前写过一篇博客,小结了一下CS224n里Manning...原创 2019-04-09 19:51:11 · 488 阅读 · 0 评论 -
“达观杯”文本智能处理挑战赛⑤:训练模型之 LightGBM
一. 简介1.1. 什么是LightGBM LightGBM是个快速的、分布式的、高性能的基于决策树算法的梯度提升框架。可用于排序、分类、回归以及很多其他的机器学习任务中。 因为他是基于决策树算法的,它采用最优的leaf-wise策略分裂叶子节点,然而其它的提升算法分裂树一般采用的是depth-wise或者level-wise而不是leaf-wise。因此,在LightGBM...原创 2019-04-12 20:30:46 · 779 阅读 · 3 评论 -
“达观杯”文本智能处理挑战赛⑥:网格搜索、交叉验证与模型融合
数据竞赛中提高成绩主要有3个地方特征工程 调参 模型融合本节介绍用网格搜索来调参,它主要是指尝试我们关心的参数的所有可能组合。交叉验证是在特定数据集上对给定算法进行评估的一种方法,是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。在交叉验证中,数据被多次划分,并且需要训练多个模型。最常用的是k折交叉验证(k-fold cross-validation)。...原创 2019-04-15 21:32:40 · 501 阅读 · 0 评论 -
“达观杯”文本智能处理挑战赛④:训练模型之 LR 和 SVM
1. 理解逻辑回归和SVM之前所写的笔记算法笔记2——逻辑回归算法笔记3——从凸优化问题角度看SVM2. 逻辑回归实战lr = LogisticRegression(C=120,dual=True)lr.fit(x_train,y_train)y_test = lr.predict(x_test)3. 线性SVM实战加入网格搜索,代码如下:pa...原创 2019-04-11 21:25:03 · 441 阅读 · 0 评论 -
“达观杯”文本智能处理挑战赛②:特征工程之TF-IDF
1.文本数据特征工程文本的特征工程,原始数据将被转换为特征向量,另外也会根据现有的数据创建新的特征。为了从数据集中选出重要的特征,有以下几种方式:计数向量作为特征 TF-IDF向量作为特征 单个词语级别 多个词语级别(N-Gram) 词性级别 词嵌入作为特征 基于文本/NLP的特征 主题模型作为特征本文介绍TF-IDF向量作为特征的实现2.TF-IDFT...原创 2019-04-06 20:40:57 · 790 阅读 · 0 评论 -
“达观杯”文本智能处理挑战赛①:Introduction
1.任务描述达观杯是一个长文本分类问题,文本的长度非常长,最长的句子超过1w个词,一般任务也就300词。文本进行过脱敏处理,任务目标是判断文本数据属于什么类别,类别总共有19种。比如给你一段新闻文章,判断文章属于经济、政治还是娱乐或者其他的类别。横坐标是种类名称(脱敏的),纵坐标是对应的语料数量。建立模型通过长文本数据正文(article),预测文本对应的类别(class)。传...原创 2019-04-05 19:34:57 · 338 阅读 · 0 评论