![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DataWhale自然语言处理学习入门
鸡飞蛋打西红柿
这个作者很懒,什么都没留下…
展开
-
阿里天池NLP入门——新闻文本分类(6)基于深度学习的文本分类3
上一章节采用Word2Vec做向量表示,通过TextCNN以及TextRNN的深度学习模型来做文本分类。这一章节采用bert微调,将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。 import logging import random import numpy as np import torch logging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s原创 2020-08-05 11:42:45 · 433 阅读 · 0 评论 -
阿里天池NLP入门——新闻文本分类(5)基于深度学习的文本分类2
学习目标 学习Word2Vec的使用和基础原理 学习使用TextCNN、TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 文本表示方法 Part3 词向量 基本思想 基于词的上下文环境进行预测,对于每一条输入文本,选取一定大小的窗口的上下文和一个中心词,并基于这个中心词去预测窗口内其他词出现的概率。 基本思路 通过单词和上下文彼此预测 两种算法 Skip-grams (SG):由中心词预测上下文 Continuous Bag of Words (CBOW):由上下文预测目标单词原创 2020-07-31 23:10:32 · 417 阅读 · 0 评论 -
阿里天池NLP入门——新闻文本分类(4)基于深度学习的文本分类1
基于深度学习的文本分类 与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。 学习目标 1.学习FastText的使用和基础原理 2.学会使用验证集进行调参 文本表示方法 Part2 现有文本表示方法的缺陷 在上一章节,我们介绍几种文本表示方法: One-hot Bag of Words N-gram TF-IDF 也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少存在一定的问题:转换得到的向量维度很高,原创 2020-07-27 23:02:26 · 496 阅读 · 0 评论 -
阿里天池NLP入门——新闻文本分类(3)基于机器学习的文本分类
基于机器学习的文本分类 在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。 学习目标 学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类 机器学习模型 机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。 机器学习有很多种分支,对于学习者来说应该优先原创 2020-07-25 23:29:43 · 527 阅读 · 0 评论 -
阿里天池NLP入门——新闻文本分类(2)数据读取与数据分析
数据读取 import pandas as pd data=pd.read_csv('train_set.csv',sep='\t') data.head() 数据可视化与分析 新闻长度分析 train_df['text_len']=train_df['text'].apply(lambda x: len(x.split(' '))) print(train_df['text_len'].describe()) apply后是对text字段运用的函数 describe是对字段基本统计 每条新闻平原创 2020-07-22 23:37:38 · 576 阅读 · 0 评论 -
阿里天池NLP入门——新闻文本分类(1)赛题理解
赛题理解 1.赛题名称:零基础入门NLP之新闻文本分类。 2.赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 3.赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 赛题数据 数据下载链接:link. 赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、原创 2020-07-21 21:32:24 · 743 阅读 · 0 评论