jieba分词-tfidf文本表征-SVM分类

最新推荐文章于 2024-04-26 16:33:16 发布

爱吃草莓的西瓜酱

最新推荐文章于 2024-04-26 16:33:16 发布

阅读量2.6k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_41045344/article/details/93132513

版权

jieba分词-tfidf文本表征-SVM分类

数据预处理

import pandas as pd
import jieba
import numpy as np
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn import svm
from sklearn.metrics import precision_recall_fscore_support
from sklearn.svm import SVC

def read_data(url):
    data = pd.read_csv(url,encoding='utf-8')
    data.fillna("null",inplace=True)      #使用inplace参数会改掉本身 
    return data

数据清洗

def clean_text(text):
    text = str(text)
    text = text.replace('\n', '')
    text = text.replace('<br />', ' ')
    text = text<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱吃草莓的西瓜酱

关注关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
3
评论
jieba分词-tfidf文本表征-SVM分类

jieba分词-tfidf文本表征-SVM分类数据预处理import pandas as pdimport jiebaimport numpy as npfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.fe...
复制链接

扫一扫