天池：新闻文本分类-NLP实践Note-02

最新推荐文章于 2022-10-13 20:26:11 发布

浩浩雷

最新推荐文章于 2022-10-13 20:26:11 发布

阅读量221

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/u014454827/article/details/107527659

版权

这篇博客通过Pandas分析了天池新闻文本数据，包括句子长度、新闻类别分布和字符统计。发现‘股票’类新闻最多，字符‘3750’出现最频繁，平均每篇新闻约80个句子，字符个数平均为904。同时指出类别不均衡可能影响模型精度，建议优化数据集并考虑停用词过滤。

摘要由CSDN通过智能技术生成

Task-02：数据读取与数据分析

学习目标
数据读取
数据分析
作业
分析结论

学习目标

使用Pandas读取数据
分析数据分布规律

数据读取

Pandas读取数据 train_text,这里为了方便只选取了其中1000条数据。

import pandas as pd
train_df = pd.read_csv('/Users/apple/Downloads/LZY/Datawhale/2020年7月nlp实战组队/dataset/训练集/train_set.csv', sep='\t', nrows=1000)
train_df.head()

在这里插入图片描述

数据分析

句子长度分析

train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

在这里插入图片描述
句子长度的直方图可视化：

import matplotlib.pyplot as plt

_ = plt.hist(train_df['

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浩浩雷

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

天池：新闻文本分类-NLP实践Note-04

u014454827的专栏

08-09

415

基于深度学习的文本分类01学习目标文本表示方法FastText部分API参数：文本分类基于FastText的文本分类转换为FastText需要的格式实验优化如何使用验证集调参其他优化方法技巧 Making the model better本章小结参考与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法之前介绍几种文本表示方法： One-hot

【nlp】天池学习赛-新闻文本分类-机器学习

m0_51933492的博客

09-30

1421

数据集中标签的对应的关系如下：{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}由图可知，字数 10000以上的新闻文本是极少数，小于5000。

参与评论您还未登录，请先登录后发表或查看评论

【nlp】天池学习赛-新闻文本分类-深度学习1

最新发布

m0_51933492的博客

10-13

958

vector = gensim.models.KeyedVectors.load_word2vec_format('data.vector')为使用保存的词向量加载词向量，在实际使用中更改文件名称即可。vector['非常'] 为该种方法获取词向量的方法。FastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。没有悲欢的姿势，一半在尘土里安详，一半在风里飞扬;

【NLP】天池新闻文本分类（四）——基于深度学习的文本分类1

u011961803的博客

07-27

825

【NLP】天池新闻文本分类（四）——基于深度学习的文本分类1前言深度学习之FastText介绍基于FastText的文本分类采用分层交叉验证集调参前言本文是NLP之新闻文本分类挑战赛（赛题链接）。的第四篇：基于深度学习得文本分类1。上一篇是基于机器学习的文本分类，使用的是传统机器学习算法来实现新闻分类建模：介绍了几种文本的表示方法，如One-hot、Bag of words、N-gram、TF-IDF，并且通过sklearn分别实现了Count Vectors + RidgeClassifier、TF

天池nlp赛事之新闻文本分类学习实践

ZCH_Debby的博客

07-21

956

天池nlp赛事之新闻文本分类学习实践一、赛题理解一、赛题理解赛题名称：零基础入门NLP之新闻文本分类 赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题。 1.1 赛题数据赛题以匿名处理后的新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育

天池：新闻文本分类-NLP实践Note-03

u014454827的专栏

07-26

209

Task3 基于机器学习的文本分类 在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广，且包括多个分支，本章侧重使用传统机器学习，从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类 机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程，机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种.

天池：新闻文本分类-NLP实践Note-06

u014454827的专栏

08-06

232

学习目标了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetune 文本表示方法Part4 Transformer原理 Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输.

天池：新闻文本分类-NLP实践Note-01

u014454827的专栏

07-21

346

Task1 赛题理解赛题内容赛题数据数据标签评测指标解题思路赛题内容天池-新闻文本分类：https://tianchi.aliyun.com/competition/entrance/531810/information 赛题名称：天池-NLP之新闻文本分类 赛题目标：了解NLP的预处理、模型构建和模型训练等知识点。赛题任务：以自然语言处理为背景，对新闻文本进行分类，这是一个典型的字符识别问题。学习目标：理解赛题背景与赛题数据完成赛题报名和数据下载，理解赛题的解题思路赛题数据赛题以

【NLP】天池新闻文本分类——基于机器学习的文本分类

nuoyi0618的博客

07-25

1369

目录文本表示方法one-hotBag of WordsN-gramTF-IDF 文本表示方法在自然语言领域，上述方法却不可行：文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（Word Embedding）方法。词嵌入将不定长的文本转换到定长的空间内，是文本分类的第一步。 one-hot 这里的One-hot与数据挖掘任务中的操作是一致的，即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引，然后根据索引进行赋值。 One-hot表示方法的例子如下：句子1：我爱

阿里天池-零基础入门NLP - 新闻文本分类

07-04

阿里天池-零基础入门NLP - 新闻文本分类

天池-新闻文本分类-task2 fasttext

qq_56591814的博客

10-24

1504

FastText：快速的文本分类器一、word2vec 参考文档《word2vec原理和gensim实现》 1.1 word2vec为什么不用现成的DNN模型最主要的问题是DNN模型的这个处理过程非常耗时。我们的词汇表一般在百万级别以上，从隐藏层到输出的softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最大的值。解决办法有两个：霍夫曼树和负采样。对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。输入

天池案例-Nlp新闻文本分类

weixin_41175904的博客

07-14

457

1 案例描述 1.1 描述赛题以新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。 1.2 评测标准评价标准为类别f1_score的均值，选手提交结果与实际测试集的类别进行对比，结果越大越好。计算公式： 2 代码详情 import numpy as np import pandas as pd from...

【NLP】天池新闻文本分类——基于深度学习的文本分类3(BERT)

nuoyi0618的博客

08-02

814

目录理论Transformer原理基于预训练语言模型的词表示基于Bert的文本分类Bert PretrainBert Finetune 理论 Transformer原理 Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后，它们首先流过一个self

【NLP】天池新闻文本分类（六）——基于深度学习的文本分类3

u011961803的博客

08-04

569

【NLP】天池新闻文本分类（六）——基于深度学习的文本分类2前言基于Bert文本分类前言本文是NLP之新闻文本分类挑战赛（赛题链接）。的第六篇：基于深度学习得文本分类3。上一篇是基于深度学习的文本分类2，介绍Word2Vec的文本表示方法、使用TextCNN、TextRNN进行文本分类、以及使用HAN网络结构进行文本分类。本篇将介绍基于Bert的文本分类。基于Bert文本分类 Bert Pretrain 预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训

天池NLP赛事-新闻文本分类（三）——基于机器学习的文本分类

清崎教练

07-25

1075

系列文章天池NLP赛事-新闻文本分类（一） —— 赛题理解天池NLP赛事-新闻文本分类（二） —— 数据读取和数据分析天池NLP赛事-新闻文本分类（三）——基于机器学习的文本分类 目录三、基于机器学习的文本分类3.1 机器学习模型3.2 字词模型3.3 基于机器学习的文本分类 三、基于机器学习的文本分类 3.1 机器学习模型机器学习能解决一定的问题，但不能奢求机器学习是万能的；机器学习算法有很多种，看具体问题需要什么，再来进行选择；每种机器学习算法有一定的偏好，需要具体问题具体分析； .

天池新闻文本分类-Task04- 基于深度学习的文本分类1

sinat_37901230的博客

07-27

328

基于深度学习的文本分类1学习目标文本表示方法 Part2现有文本表示方法的缺陷FastText基于FastText的文本分类如何使用验证集调参如何使用验证集调参本章小结本章作业与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2 现有文本表示方法的缺陷在上一章节，我们介绍几种文本表示方法： One-hot Bag of Words

中文新闻分类数据集_阿里天池赛-新闻文本分类 Task2 数据读取与数据分析

weixin_39673471的博客

10-21

677

数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pd train_df = pd.read_csv('../input/train_set.csv', sep='t', nrows=100)这里的read_csv由三部分构成：读取的文件路径，这里需要根据改成你本地的路径，可以使用相对路...

【天池学习赛】零基础入门NLP - 新闻文本分类

qq_42994177的博客

08-31

2382

一、赛题描述赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题任务：赛题以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。为了预防选手人工标注测试集的情况，我们将比赛数据的文本按照字符级别进行了匿名处理。处理后的赛题训练数据如下： label

BLIP模型实战：多模态文本-视频打架行为检测与检索

在当前的多模态项目中，主要应用了文本-视频检索技术，这是人工智能领域的一个重要研究方向，它涉及到计算机视觉和自然语言处理的交叉领域。通过BLIP大模型，该项目能够理解文本查询并对应地在视频中找到相关场景或...