使用TF-IDF做分类

最新推荐文章于 2024-06-13 23:22:01 发布

Adm1rat1on

最新推荐文章于 2024-06-13 23:22:01 发布

阅读量894

点赞数

分类专栏：机器学习文章标签： NLP j机器学习

本文链接：https://blog.csdn.net/qq_35358021/article/details/84970479

版权

这篇博客介绍如何利用TF-IDF技术处理UCI垃圾短信分类数据集，执行分类任务。通过设置batch_size和max_features参数，进行文本预处理，包括转为小写、移除标点和数字，然后应用TfidfVectorizer生成TF-IDF矩阵，最后展示训练和测试的损失情况。

摘要由CSDN通过智能技术生成

使用UCI垃圾短信分类的语料，做垃圾短信分类的分类任务

导入相应的模块

import tensorflow as tf
import matplotlib.pyplot as plt
import csv
import numpy as np
import os
import string
import requests
import io
import nltk
from zipfile import ZipFile
from sklearn.feature_extraction.text import TfidfVectorizer
from tensorflow.python.framework import ops
ops.reset_default_graph()

我们设置2个参数，batch_size和max_features。batch_size是batch的大小，这个大小是我们要训练logistic模型max_features是我们要用到逻辑回归的tf-idf文本的单词的最大数

sess = tf.Session()
batch_size = 200
max_features = 1000
save_file_name = 'temp_spam_data.csv'
if os.path.isfile(save_file_name):
    text_data = []
    with open(save_file_name, 'r') as temp_output_file:
        reader = csv.reader(temp_output_file)
        for row in reader:
            if len(row) > 1:
                text_data.append(row)
else:
    zip_url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip'
    r = requests.get(zip_url)
    z = ZipFile(io.BytesIO(r.content))
    file = z.read('SMSSpamCollection')
    # Format Data
    text_data = file.decode()
    text_data = text_data.encode('ascii',errors='ignore')
    text_data = text_data.decode().split('\n')
    text_data = [x.split('\t') for x in text_data if len(x)>=1]
    
    # And write to csv
    with open(save_file_name, 'w')

最低0.47元/天解锁文章

Adm1rat1on

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用TF-IDF做分类

使用UCI垃圾短信分类的语料，做垃圾短信分类的分类任务导入相应的模块import tensorflow as tfimport matplotlib.pyplot as pltimport csvimport numpy as npimport osimport stringimport requestsimport ioimport nltkfrom zipfile imp...
复制链接

扫一扫