python 计量经济学案例分析_python文本数据分析案例—新闻分类

本文档通过Python实现新闻分类,涵盖数据预处理(文本清洗、分词、停用词处理)、数据可视化、文本向量化(词袋模型、TF-IDF)及模型建立(逻辑回归、KNN、决策树、多层感知器、朴素贝叶斯),展示了新闻文本从处理到分类的完整流程。
摘要由CSDN通过智能技术生成

前言

数据分析不只是对数值型数据的分析,对文本数据的分析也是十分常见的。大家常看到的新闻类APP,如:今日头条,UC头条等,通常都已按新闻类型分好类别,读者可根据自己的喜好查看相应的新闻内容。本案例从数据预处理,数据可视化,文本向量化以及建立模型实现了新闻分类全过程。

1概述

1.1案例背景

新闻分类是文本分类中常见的应用场量。在传统分类模式下,往往是通过人工对新闻内容进行核对,从而将新闻划分到合适的类别中。这种方式会消耗大量的人力资源,并且效率不高。

1.2任务与实现

我们的任务在于,根据新闻文本中的内容,进行文本预处理,建模等操作,从而可以自动将新闻划分到最可能的类别中,节省人力资源。 具体实现内容包括:

   ◆能够对文本数据进行预处理。【文本清洗, 分词,去除停用词,文本向量化等操作。】
   ◆能够通过Python统计词频,生成词云图。【描述性统计分析】
   ◆能够通过方差分析,进行特征选择。【验证性统计分析】
   ◆能够根据文本内容,对文本数据进行分类。【统计建模】

1.3任务扩展

新闻分类是文本分类的常见场景,本案例的实现也可以应用到其他根据文本内容来实现分类的场景,例如,垃圾邮件过滤,情感分析等。

1.4数据集描述

数据集为2016年1月1日~ 2018年10月9日期间新闻联播的数据,包括: | 列名 | 说明 | | date | 新闻日期 | | tag | 新闻类别 | | headline | 新闻标题 | | content | 新闻内容 |

2.加载数据

2.1准备工作

使用anaconda3环境下的jupyter notebook,需要安装jieba,wordcloud库。

2.2加载数据并预览

fe7c070a09270a011dc3eca97833a7f7.png

3 数据预处理

3.1 文本数据

3 .1. 1 结构化数据与非结构化数据

结构化数据,是可以表示成多行多列的形式,并且,每行( 列) 都有着具体的含义。非结构化数据,无法合理地表示为多行多列的形式,即使那样表示,每行(列)也没有具体的含义。

3 .1 . 2 文本数据预处理

文本数据,是一种非结构化数据,与我们之前分析的结构化数据有所不同。因此,其预处理的步骤与方式也会与结构化数据有所差异。文本数据预处理主要包含:

  ◆缺失值处理
  ◆重复值处理
  ◆文本内容洁洗
  ◆分词
  ◆停用词处理

3.2 缺失值处理

583807a0a03cfe843fb4532dad1a3661.png

content字段存在缺失值,根据实际情况选择用headline字段对应值填充并检查填充后结果。

3.3重复值处理

5f30a0145b40b9173c2f6480ffb0c80d.png

查找重复值并删除。

3.4文本内容清洗

文本中存在对分析作用不大的标点符号与特殊字符,使用re库中正则匹配方法去除:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值