文本分类文本预处理+特征工程+训练分类模型+调用分类模型+FlaskApi

该博客详细介绍了如何利用Python进行文本分类任务,包括读取新闻数据、文本预处理、特征工程、训练分类模型以及通过Flask API部署模型。内容涵盖数据格式(URL、主题、内容、类别)和Flask的简单应用示例。
摘要由CSDN通过智能技术生成

文本分类:文本预处理+特征工程+训练分类模型+调用分类模型+FlaskApi


数据集:链接:https://pan.baidu.com/s/10Na-pH5YBGs51TFnZoExdA
提取码:mic3
参考链接:https://blog.csdn.net/u013421629/article/details/87878580
https://blog.csdn.net/qq_33493180/article/details/90238654
https://blog.csdn.net/freeking101/article/details/100174215

1.读取新闻数据+文本预处理+特征工程+训练分类模型+调用分类模型+Flask:

原始数据格式:‘URL’,‘theme’,‘content’,‘category’

2.详尽代码

所需的包
在这里插入图片描述
先举个小例子关于flask的简单使用
在这里插入图片描述

下面展示一些 详细代码:

#分词
def data_Preprocessing(content,content_S):
    content_S=[]
    for line in content:
        current_segment = jieba.cut(line)
        content_S.append(current_segment)
        df_content=pd.DataFrame({
   'content_S':content_S})
    return df_content,content_S

#去停
def drop_stopwords(contents,stopwords):
    contents_clean = []
    all_words = []    
    for line in contents: 
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
            all_words.append(str(word))
        contents_clean.append(line_clean)
    return contents_clean,all_words

#数据集划分
def data_split_train_test(c,l):
    x_train,x_test,y_train
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值