零基础入门NLP - 新闻文本分类
csdnshenjiaye
这个作者很懒,什么都没留下…
展开
-
零基础入门推荐系统【多路召回】Task3
多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获原创 2020-11-30 23:29:25 · 305 阅读 · 0 评论 -
零基础入门推荐系统【数据分析】Task2
数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。建议:当特征工程和模型调参已经很难继续上分了,可以回来在重新从新的角度去分析这些数据,或许可以找到上分的灵感导包%matplotlib inlineimport pandas as pdimport原创 2020-11-27 23:22:55 · 154 阅读 · 0 评论 -
Task06:基于深度学习的文本分类3
什么是BERT?你一定听说过BERT,也知道了它是多么不可思议以致改变了NLP的领域格局,但BERT究竟是什么?以下是BERT团队对该框架的描述:BERT全称BidirectionalEncoderRepresentations from Transformers(Transformers的双向编码表示),对未标注的文本,通过上下文约束预训练深层双向表示。训练完成后,只需要对BERT预训练模型进行fine-tune,再加上针对特定任务的输出层就可以取得SOTA结果。对新人来说这样的解释不够明..转载 2020-08-02 12:05:51 · 391 阅读 · 0 评论 -
Task5 基于深度学习的文本分类2-1Word2Vec
使用gensim训练word2vec如果在以词为基本单元输入的自然语言处理任务中,都避免不了使用词的表示,词的表示有很多种,这里主要介绍的就是词向量,word2vec是目前比较通用的训练词向量的工具,使用Gensim模块,可以使词向量的训练变的简单,那么我们知道对于word2vec来说,不论的Skip-Gram models还是CBOW models,他们的输入以及输出都是以单词为基本单位的,只是他们对应的输入以及输出不一样:Skip-Gram models:输入为单个词,输出目标为多个上下文单词;原创 2020-07-30 23:48:02 · 175 阅读 · 0 评论 -
Task04:基于深度学习的文本分类1
Task4 基于深度学习的文本分类1-fastText与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理 学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们介绍几种文本表示方法:One-hot Bag of Words N-gram TF-IDF也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少原创 2020-07-27 23:27:02 · 164 阅读 · 0 评论 -
Task03:基于机器学习的文本分类
基于机器学习的文本分类学习目标学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类什么是 TF-IDF 算法?简单来说,向量空间模型就是希望把查询关键字和文档都表达成向量,然后利用向量之间的运算来进一步表达向量间的关系。比如,一个比较常用的运算就是计算查询关键字所对应的向量和文档所对应的向量之间的 “相关度”。TF (Term Frequency)—— “单词频率”意思就是说,我们计算一个查询关键字中某一个单词在目标文档中出现的次数。举例说来,如果我们要查询 “原创 2020-07-25 22:42:16 · 227 阅读 · 0 评论 -
Task2 数据读取与数据分析
Task2 数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据 分析赛题数据的分布规律数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('../data/train_set.csv', sep='\t', nro原创 2020-07-22 22:13:08 · 112 阅读 · 0 评论 -
Task1 赛题理解
Task1 赛题理解本章将会对新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。赛题理解赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可原创 2020-07-21 17:11:57 · 96 阅读 · 0 评论