task3NLP新闻文本分类 (1)

数据异常分析

task3:异常处理(1天)

  • 理论部分
  • 了解可能会出现的各类异常。
  • 熟练掌握try_except_finally结构,使用raise语句抛出指定的异常。

参考文献

数据的读取和分析

  • 1.利用pandas库对文本数据的处理。
  • 2.分析数据,找到每次数据中的分布规律,这些规律可以帮助我们更好的选择模型,甚至说做数据增强,来提高最后的效果。

通过对于github-joyful-pandas-https://github.com/datawhalechina/team-learning

基本用法的了解,可以处理新闻文本数据的csv文件了

import numpy as np
import pandas as pd
data_df= pd.read_csv('data.csv',sep='\t',nrows=100)
data_df.head()

文本分类

要学的太多了,什么都不会

Task3 基于机器学习的文本分类

在上一章节,我们对赛题的数据进行了读取,并在末尾给出了两个小作业。如果你顺利完成了作业,那么你基本上对Python也比较熟悉了。在本章我们将使用传统机器学习算法来完成新闻分类的过程,将会结束到赛题的核心知识点。

基于机器学习的文本分类

在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。

学习目标

学会TF-IDF的原理和使用
使用sklearn的机器学习模型完成文本分类
机器学习模型

机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。

机器学习有很多种分支,对于学习者来说应该优先掌握机器学习算法的分类,然后再其中一种机器学习算法进行学习。由于机器学习算法的分支和细节实在是太多,所以如果你一开始就被细节迷住了眼,你就很难知道全局是什么情况的。

如果你是机器学习初学者,你应该知道如下的事情:

机器学习能解决一定的问题,但不能奢求机器学习是万能的;
机器学习算法有很多种,看具体问题需要什么,再来进行选择;
每种机器学习算法有一定的偏好,需要具体问题具体分析;Task3 基于机器学习的文本分类

在上一章节,我们对赛题的数据进行了读取,并在末尾给出了两个小作业。如果你顺利完成了作业,那么你基本上对Python也比较熟悉了。在本章我们将使用传统机器学习算法来完成新闻分类的过程,将会结束到赛题的核心知识点。

基于机器学习的文本分类

在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。

学习目标

学会TF-IDF的原理和使用
使用sklearn的机器学习模型完成文本分类
机器学习模型

机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。

机器学习有很多种分支,对于学习者来说应该优先掌握机器学习算法的分类,然后再其中一种机器学习算法进行学习。由于机器学习算法的分支和细节实在是太多,所以如果你一开始就被细节迷住了眼,你就很难知道全局是什么情况的。

如果你是机器学习初学者,你应该知道如下的事情:

机器学习能解决一定的问题,但不能奢求机器学习是万能的;
机器学习算法有很多种,看具体问题需要什么,再来进行选择;
每种机器学习算法有一定的偏好,需要具体问题具体分析;


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值