第3关：文本数据分类模型的构建—-支持向量机模型

最新推荐文章于 2024-07-12 14:44:50 发布

Coralberry

最新推荐文章于 2024-07-12 14:44:50 发布

阅读量597

点赞数 8

分类专栏：上市公司新闻情感分析在线实验闯关文章标签：分类支持向量机数据挖掘

本文链接：https://blog.csdn.net/qq_31219971/article/details/134921741

版权

上市公司新闻情感分析在线实验闯关专栏收录该内容

3 篇文章 0 订阅

订阅专栏

任务描述

本关任务：基于情感分类标签和训练数据，计算逆向词频构造特征数据集，构建支持向量机模型，并对测试数据进行情感分类预测，返回测试集的情感分类标签值。

编程要求

根据提示，在右侧编辑器补充代码，用情感分类标签和训练数构建支持向量机模型，对测试数据进行情感分类预测。

测试说明

平台会对你编写的代码进行测试：

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -*-
#1.基于上一关的结果trainX_txt,Y,testX_txt，利用机器学习包的内置函数，
#  计算逆向词频，并构造特征集，对训练数据集按80%训练、20%测试随机划分，
#  构建支持向量机模型，返回模型准确率rv和预测准确率rs。
#2.最后，利用训练好的模型，对testX_txt进行预测，返回测试集的情感分类标签值。
def return_values():
    from sklearn.model_selection import train_test_split 
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.feature_extraction.text import TfidfTransformer
    import pandas as pd
    import step10_2
    r=step10_2.return_values()
    X, Y, testX_txt = r  # 确保 X, Y, testX_txt 被正确赋值
    count_vect = CountVectorizer() #对CountVectorizer创建对象count_vect
    x_train_counts = count_vect.fit_transform(X) #用来对数据进行处理，表示成n-gram的形式
    tfidf_transformer = TfidfTransformer()#对TfidfTransformer创建对象tfidf_transformer
    X = tfidf_transformer.fit_transform(x_train_counts) 
    
    x_train, x_test, y_train, y_test = train_test_split (X, Y, random_state = 0)
    from sklearn.svm import LinearSVC
    clf_svm = LinearSVC()
    clf_svm.fit(x_train, y_train)
    rv=clf_svm.score(x_train, y_train)
    rs=clf_svm.score(x_test,y_test)
    test_y=[]#测试数据的情感分类预测
    for i in range(len(testX_txt)):
        text1=testX_txt[i]
        pre=clf_svm.predict(count_vect.transform([text1]))
        test_y.append(pre[0])
    
    return (rv,rs,test_y)

Coralberry

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
第3关：文本数据分类模型的构建—-支持向量机模型

支持向量机(Support Vector Machine, SVM)是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。本关任务：基于情感分类标签和训练数据，计算逆向词频构造特征数据集，构建支持向量机模型，并对测试数据进行情感分类预测，返回测试集的情感分类标签值。根据提示，在右侧编辑器补充代码，用情感分类标签和训练数构建支持向量机模型，对测试数据进行情感分类预测。开始你的任务吧，祝你成功！
复制链接

扫一扫