Datawhale-零基础入门NLP-新闻文本分类Task03

文本是不定长度的,文本表示成计算的能够运算的数字或向量的方法称为词嵌入(Word Embedding)。词嵌入是将不定长的文本转换成定长的空间中。为了解决将原始文本转成固定长度的特征向量问题,scikit-learn提供了以下方法:

  • 令牌化(tokenizing):对每个可能的词令牌分成字符串并赋予整数形的id,通过空格和标点符号作为令牌分隔符。

  • 统计(counting)每个词令牌在文档中的出现次数。

  • 标准化(normalizing)是减少重要的词令牌的出现次数的权重。

使用传统的机器学习方法进行文本分类,思路有Count Vectors + 分类算法(LR/SVM/XGBoost等等),TF-IDF+分类算法(LR/SVM/XGBoost等等)

1 Count Vectors + 分类算法

1.1 Count Vectors

类countVectorizer在但单类中实现了tokenization(词语切分)和occurence counting(出现频数统计):

函数为:

参数详解:

input:string {‘filename’, ‘file’, ‘content’}, default=’content’

定义输入数据的格式,如果是filename,读取的文件名列表,以获取要分析的原始内容;如果是‘file’,序列项必须有一个' read '方法(类文件的对象),该方法被调用来获取内存中的字节;如果是‘content’,输入应该是字符串或字节类型的序列项。

encoding:string,default='utf-8'

进行分析时,使用该类型进行解码。

lowercase:bool,default=True

在进行tokenizing之前,将字符转成小写

ngram_range:tuple (min_n, max_n), default=(1, 1)

要提取的不同单词n-gram或字符n-gram的n值范围的上下边界。

analyzer:string, {‘word’, ‘char’, ‘char_wb’} or callable, default=’word’

分析是由单词n-gram还是字符n-gram组成,‘char_wb’是一个混合状态。

max_df:float in range [0.0, 1.0] or int, default=1.0

当构建词汇表时,忽略文档频率严格高于给定阈值的术语(特定于语料库的停止词)。如果为float,该参数表示文档的比例,整数绝对计数。如果词汇不是none,则忽略此参数。

min_df:float in range [0.0, 1.0] or int, default=1

构建词汇表时,忽略文档频率严格低于给定阈值的术语。这个值在文献中也被称为截止值。如果为float,该参数表示文档的比例,整数绝对计数。如果词汇不是none,则忽略此参数。

例子:

from sklearn.feature_extraction.text import CountVectorizer

corpus = [
          'This is the first document.',
          'This document is the second document.',
          'And this is the third one.',
          'Is this the first document?'
        ]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())

print(X.toarray())


vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(2, 2))
X2 = vectorizer2.fit_transform(corpus)
print(vectorizer2.get_feature_names())

print(X2.toarray())

 

1.2 分类算法

这里选用了线性模型里边的岭回归做分类,还可以选用SVM,LR,XGBoost等分类算法模型,后边用网格搜索(GridSearchCV)进行参数遍历的会用到。

综合分析:

import pandas as pd
import xgboost as xgb
import lightgbm as lgb
import catboost as cat
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.svm import  SVC
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline


train_df = pd.read_csv('data/data45216/train_set.csv',sep='\t',nrows=15000)
print(train_df.shape)

vectorizer = CountVectorizer(max_features=3000)
train_test = vectorizer.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000],train_df['label'].values[:10000])
val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:],val_pred,average='macro'))

输出结果为:0.65441877581244

2 TF-IDF+分类算法

2.1 TF-IDF

TF-IDF是词频-逆文档频率,含义是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词或短语具有很好的类别区分能力,适合用来分类。TF-IDF的假设是,高频率词应该具有高权重,除非它也是高文档频率。逆文档怕频率是使用词条的文档频率来抵消该词的词频对权重的影响,而得到一个较低的权重。

词频(Term Frequency,TF)是指某一个给定的词语在该文件中出现的频率。这个数字是对词数(Term Count)的归一化,以防止它偏向长的文件,对于在某个特定文件中的词语来说,它的重要性可表示为:

                                                                          

其中,分子是该词在文件中的出现次数,而分母是在文件中所有字词出现的次数之和。

逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数除以包含该词语之文件的数目,再将得到的商取对数得到:

                                                                                  

其中,:语料库中的文件总数;j:包含词语的文件数目,如果该词语不在语料库则导致分母为0,因此,常用作为分母,然后在计算TF和IDF的乘积。

函数为:

 

参数详解:

input:string {‘filename’, ‘file’, ‘content’}, default=’content’

定义输入数据的格式,如果是filename,读取的文件名列表,以获取要分析的原始内容;如果是‘file’,序列项必须有一个' read '方法(类文件的对象),该方法被调用来获取内存中的字节;如果是‘content’,输入应该是字符串或字节类型的序列项。

encoding:string,default='utf-8'

进行分析时,使用该类型进行解码。

lowercase:bool,default=True

在进行tokenizing之前,将字符转成小写

ngram_range:tuple (min_n, max_n), default=(1, 1)

要提取的不同单词n-gram或字符n-gram的n值范围的上下边界。

analyzer:string, {‘word’, ‘char’, ‘char_wb’} or callable, default=’word’

分析是由单词n-gram还是字符n-gram组成,‘char_wb’是一个混合状态。

max_df:float in range [0.0, 1.0] or int, default=1.0

当构建词汇表时,忽略文档频率严格高于给定阈值的术语(特定于语料库的停止词)。如果为float,该参数表示文档的比例,整数绝对计数。如果词汇不是none,则忽略此参数。

min_df:float in range [0.0, 1.0] or int, default=1

构建词汇表时,忽略文档频率严格低于给定阈值的术语。这个值在文献中也被称为截止值。如果为float,该参数表示文档的比例,整数绝对计数。如果词汇不是none,则忽略此参数。

norm:{‘l1’, ‘l2’}, default=’l2’

正则化,‘l2’是平方值,‘l1’是绝对值

use_idf:bool, default=True

启用反向文档频率重新加权

smooth_idf:bool, default=True

通过在文档频率上增加一个来平滑idf权重,就好像一个额外的文档恰好包含集合中的每个术语一次。防止零除法

sublinear_tf:bool, default=False

应用 sublinear tf scaling, i.e. 取代 tf 在with 1 + log(tf).

例子:

from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
          'This is the first document.',
          'This document is the second document.',
          'And this is the third one.',
          'Is this the first document?'
        ]

vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names)

2.2 分类算法

这里选用了线性模型里边的岭回归做分类,还可以选用SVM,LR,XGBoost等分类算法模型,后边用网格搜索(GridSearchCV)进行参数遍历的会用到。

综合分析:

tfidf = TfidfVectorizer(ngram_range=(1,3),max_features=3000)
train_test = tfidf.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000],train_df['label'].values[:10000])
val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:],val_pred,average='macro'))

输出结果为:0.8719098297954606

本章作业:

调整参数可以考虑用网格搜索进行超参数遍历,分别对文本处理方式和分类算法进行遍历。超参数是不直接在估计器内学习的参数,它们作为估计器类中构造函数的参数进行传递,搜索超参数空间以便能获得最好的“交叉验证”,搜索包括:

  • 估计器(回归器或分类器)
  • 参数空间
  • 搜寻或采样候选的方法
  • 交叉验证方案
  • 计分函数

scikit-learn包中提供了两种采样搜索候选的通用方法,GridSearchCV考虑了所有参数组合,RandomizedSearchCV可以从具有指定分布的参数空间中抽取给定数量的候选,这里选用GridSearchCV举例:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.svm import  SVC
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline

#遍历TF-IDF的参数
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', SGDClassifier()),
])

parameters = {
    #'tfidf__max_df': (0.5, 0.75, 1.0),
    'tfidf__max_features': (None, 5000, 10000, 50000),
    'tfidf__ngram_range': ((1, 1), (1, 2),(1,3)),  # unigrams or bigrams
    'tfidf__norm': ('l1', 'l2'),
    'clf__max_iter': (20,),
    'clf__alpha': (0.00001, 0.000001),
    'clf__penalty': ('l2', 'elasticnet'),
    # 'clf__max_iter': (10, 50, 80),
}

grid_search = GridSearchCV(pipeline, parameters,  verbose=1)
print("Performing grid search...")
print("pipeline:", [name for name, _ in pipeline.steps])
print("parameters:")
pprint(parameters)
grid_search.fit(train_df['text'].tolist()[:10000],train_df['label'].values[:10000])

print("Best score: %0.3f" % grid_search.best_score_)
print("Best parameters set:")
best_parameters = grid_search.best_estimator_.get_params()
for param_name in sorted(parameters.keys()):
    print("\t%s: %r" % (param_name, best_parameters[param_name]))

遍历分类器:

import pandas as pd
import xgboost as xgb
import lightgbm as lgb
import catboost as cat
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.svm import  SVC
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline

tfidf = TfidfVectorizer(ngram_range=(1,3),max_features=3000)
train_test = tfidf.fit_transform(train_df['text'])

#定义多个分类函数
classifiers = [('xgb',xgb.XGBClassifier(),{
    'max_depth': [5, 10, 15, 20, 25],
    'learning_rate': [0.01, 0.02, 0.05, 0.1, 0.15],
    'n_estimators': [50, 100, 200, 300, 500],
}),
                     ('lgb',lgb.LGBMClassifier(),{
    'max_depth': [5, 10, 15, 20, 25],
    'learning_rate': [0.01, 0.02, 0.05, 0.1, 0.15],
    'n_estimators': [50, 100, 200, 300, 500],
}),
                     ('cat',cat.CatBoostClassifier(),{
    'max_depth': [5, 10, 15, 20, 25],
    'learning_rate': [0.01, 0.02, 0.05, 0.1, 0.15],
    'n_estimators': [50, 100, 200, 300, 500],
}),
                     ('svc',SVC(),{'kernel': ['rbf'], 'gamma': [1e-3, 1e-4],
                     'C': [1, 10, 100, 1000]})]

for name,clf,params in classifiers:
    grid_search = GridSearchCV(clf,params,n_jobs=1,verbose=1)
    grid_search.fit(train_test[:10000],train_df['label'].values[:10000])   

 

思考:我用TF-IDF+分类器的验证结果为0.87,提交结果为0.1773,用了Fasttext的验证结果为0.82,提交结果为0.833,产生的原因是什么?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
天池大赛是国内知名的数据科学竞赛平台,零基础入门NLP - 新闻文本分类是其中的一项比赛任务。这个任务的目标是利用机器学习和自然语言处理的方法,对给定的新闻文本进行分类,即根据新闻内容判断其所属的类别。这个任务对于初学者来说是一个很好的入门项目。 在解决这个问题的过程中,我们需要首先对提供的训练数据进行探索性数据分析,了解数据的分布,词频以及类别的平衡情况。然后,我们可以进行文本预处理,包括分词、去除停用词、词干化等。接下来,可以构建特征表示,可以使用TF-IDF、Word2Vec或者其他词嵌入模型来提取文本的向量表示。在构建特征表示后,可以选择合适的机器学习算法,如朴素贝叶斯、支持向量机、深度学习等,来训练分类模型。 在进行模型训练之前,可以将数据集分为训练集和验证集,用于模型的评估和调优。我们可以使用交叉验证,调整模型的超参数,选择表现最好的模型。在模型训练完成后,可以使用测试集对模型进行评估,计算准确率、召回率和F1值等指标。最后,我们可以利用模型对给定的未知新闻文本进行分类预测。 在解决这个问题的过程中,还可以进行一些方法的优化和改进。比如,可以使用集成学习的方法,如随机森林、XGBoost或者LightGBM等,结合多个分类器的结果来提高整体的分类准确率。此外,可以尝试使用预训练的模型,如BERT等,来获得更好的特征表示。此外,还可以尝试使用深度学习网络,如卷积神经网络或者循环神经网络,来提取文本的高级语义特征。 总之,零基础入门NLP - 新闻文本分类是一个很好的机会,可以学习和应用自然语言处理的知识和技术。通过解决这个问题,我们可以深入了解文本分类的基本概念和方法,提升自己在数据科学领域的能力和竞争力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

樱缘之梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值