新闻分类大赛task3

最新推荐文章于 2024-07-15 10:30:34 发布

我是飞行模式

最新推荐文章于 2024-07-15 10:30:34 发布

阅读量71

点赞数

分类专栏：新闻分类比赛学习文章标签：自然语言处理机器学习

本文链接：https://blog.csdn.net/u012302260/article/details/107586353

版权

新闻分类比赛学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文本表示方法

采用词袋模型进行文本表示,使用sklearn中CountVectorizer函数

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]
vectorizer= CountVectorizer(max_features=3)
X=vectorizer.fit_transform(corpus)  # fit_transform  数据预处理
print(X.toarray())
print(vectorizer.get_feature_names())   #输出所有文本的关键字

同时，也可以使用sklearn中TfidfVectorizer函数

vectorizer= TfidfVectorizer(ngram_range=(1,3),max_features=3000)

ngram_range(min,max)为n-gram的大小。

基于机器学习的文本分类

首先采用教程给出的线性回归进行分类，由于电脑性能，选用1500条数据，1000条训练，500条测试。

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

train_df = pd.read_csv(r"E:\data\datawhale\train_set.csv", sep='\t', nrows=1500)

vectorizer = CountVectorizer(max_features=3000)
train_test = vectorizer.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:1000], train_df['label'].values[:1000])

val_pred = clf.predict(train_test[1000:])
print(f1_score(train_df['label'].values[1000:], val_pred, average='macro'))

得出F1值为0.64
然后采用xgboost训练，得出f1值为0.68，对比线性回归有一定提升。

from xgboost import XGBClassifier
model = XGBClassifier() # 载入模型（模型命名为model)
model.fit(train_test[:1000], train_df['label'].values[:1000]) # 训练模型（训练集）
y_pred = model.predict(train_test[1000:]) # 模型预测（测试集），y_pred为预测结果
print(f1_score(train_df['label'].values[1000:], y_pred, average='macro'))

我是飞行模式

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
新闻分类大赛task3

文本表示方法采用词袋模型进行文本表示,使用sklearn中CountVectorizer函数from sklearn.feature_extraction.text import TfidfVectorizercorpus = [ 'This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?'
复制链接

扫一扫