自然语言处理
qq_26966457
这个作者很懒,什么都没留下…
展开
-
nlp基础-----Task3 基于机器学习的文本分类
Task3 基于机器学习的文本分类在上一章节,我们对赛题的数据进行了读取,并在末尾给出了两个小作业。如果你顺利完成了作业,那么你基本上对Python也比较熟悉了。在本章我们将使用传统机器学习算法来完成新闻分类的过程,将会结束到赛题的核心知识点。基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类原创 2020-07-25 23:13:59 · 152 阅读 · 1 评论 -
nlp基础学习-----Task2 数据读取与数据分析
Task2 数据读取与数据分析在上一章节,我们给大家简单介绍了赛题的内容和几种解决方案。从本章开始我们将会逐渐带着大家使用思路1到思路4来完成本次赛题。在讲解工具使用的同时,我们还会讲解一些算法的原理和相关知识点,并会给出一定的参考文献供大家深入学习。数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使原创 2020-07-22 21:24:01 · 116 阅读 · 0 评论 -
Datawhale|NLP集训学习笔记
@Datawhale|NLP集训学习笔记task1—赛题理解1.赛题内容赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。2.赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:【财经、彩票、房产、股票原创 2020-07-21 09:59:56 · 86 阅读 · 0 评论