利用python将数据集按txt文本分类

第二弹 分类test和train
根据stanford数据集的1.6W张图片的txt文本分类test和train,原标签文件为mat格式,可自行搜索转换为txt文本。

import os
import shutil
import cv2

# 读入分类的标签txt文件
#label_file = open("E:\\pythonProject\\data\\train_perfect_preds.txt", 'r')
label_file = open("D:\\Desktop\\three_small\\Stanford-data\\mat2txt.txt", 'r')
# 原始文件的根目录
#input_path = "E:\\pythonProject\\data\\cars_train"
input_path = "D:\\Desktop\\three_small\\Stanford-data\\car_ims"
# 保存文件的根目录
#output_path = "E:\\pythonProject\\result"
output_path = "D:\\Desktop\\three_small\\Stanford-data"
# 标签数组
#lables = ["Classical", "Rock", "Symphony", "Country"]
paths = ['/fdfs_data/data/', '/fdfs_data/data1/']

trainpath = '/home/*/*/SR/raisr/test'

#file_name = "E:\pythonProject\sort\data\cars_train"
file_name = "D:\Desktop\\three_small\Stanford-data\car_ims"  #\t 转义
def get_img_file(file_name):
    imagelist = []
    for parent, dirnames, filenames in os.walk(file_name):
        for filename in filenames:
            if filename.lower().endswith(
                    ('.bmp', '.dib', '.png', '.jpg', '.jpeg', '.pbm', '.pgm', '.ppm', '.tif', '.tiff')):
                imagelist.append(os.path.join(parent, filename))
                #print(filename)
        return imagelist

list = get_img_file(file_name)  #图片的路径数组
#print(list)
#print(file_name)
# 一行行读入标签文件
data = label_file.readlines()
#data1 = pic_file.readlines()
# 计数用
i = 0


for line in data:
    # 通过空格拆分成数组
    str1 = line.split(" ")
    print(str1)
    # 第一个是文件名
    #file_name = str1[0]
    # 第二个是标签类别,并去除最后的换行字符
    #file_label = str1[1].strip()
    file_label = str1[2].strip() #第三个标识是标签
    # 原始文件的路径
    #str2=file_label.zfill(5)
    #old_file_path = os.path.join(input_path, str2)
    old_file_path = list[i]
    # 新文件路径
    new_file_path = ""

    # 如果文件名中有test字符,将其保存至test文件夹下的对应标签文件夹中
    #if "test" in file_name:
    if str1[3] == '0\n':  #分割后的字符包括换换行符
        new_file_path = os.path.join(output_path, "car_ims_train", file_label)
        #print(new_file_path + "\t进if了")
    # 如果文件名中有 train 字符,将其保存至train文件夹下的对应标签文件夹中
    #elif "train" in file_name:
        #new_file_path = os.path.join(output_path, "train", lables[int(file_label) - 1])
    elif str1[3] == '1\n':
        new_file_path = os.path.join(output_path, "car_ims_test", file_label)
    # 如果路径不存在,则创建
    #print(new_file_path)
    if not os.path.exists(new_file_path):
        print("路径 " + new_file_path + " 不存在,正在创建......")
        os.makedirs(new_file_path)

    # 新文件位置
    new_file_path = os.path.join(new_file_path, str(i))
    img = cv2.imread(old_file_path)
    sp = img.shape
    height = sp[0]
    width = sp[1]
    channel = sp[2]
    # 复制文件
    #if height>400 and width >400:
    print("" + str(i) + "\t正在将 " + old_file_path + " 复制到 " + new_file_path)
    shutil.copyfile(old_file_path, new_file_path+'.jpg')
    #else:
    print(old_file_path,sp)
    i = i + 1
# 完成提示
print("完成")

Python是一种高效的编程语言,可以轻松实现文本分类器。文本分类器是基于机器学习算法的程序,它可以对文本进行分类或标签化。下面是一些用Python实现文本分类器的具体方法和数据集: 1. 数据集: 对于一个文本分类器程序,我们需要准备一些数据集。在这里,我们以莎士比亚的剧本作为我们的数据集,其中包含了不同的剧本,包括喜剧、悲剧、历史剧等等。该数据集可以从以下链接中找到:https://www.kaggle.com/kingburrito666/shakespeare-plays。 2. 代码实现 以下是一些用Python编写文本分类器的代码: Step 1: 导入必要的库。 首先,我们需要在Python中导入一些必要的库,如文件操作、预处理、机器学习等等。下面列出了一些可能用到的库: - NumPy – 用于数值计算的Python库。 - Pandas – 用于数据读取、操作和管理的数据分析库。 - Scikit-learn – 用于机器学习领域中的分类、聚类、回归等任务的Python库。 - NLTK – 用于自然语言处理Python库。 - Matplotlib – 用于数据可视化的Python库。 代码实现: import numpy as np import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import nltk import matplotlib.pyplot as plt Step 2: 数据操作和预处理。 读取文本数据,并将数据集分为训练集和测试集。我们将数据集随机分成训练集和测试集,其中训练集占数据集的80%,测试集占20%。 代码实现: # 读取文本数据 data = pd.read_csv("shakespeare_plays.csv") # 将数据集分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(data['PlayerLine'], data['Play'], test_size=0.2, random_state=42) Step 3: 特征提取和转换。 特征提取指将原始数据转换为一组可用于机器学习算法的特征。在文本分类中,我们通常使用TF-IDF方法将单词转换为特征向量。 代码实现: # 将单词转换为特征向量 vectorizer = TfidfVectorizer(stop_words='english') train_vectors = vectorizer.fit_transform(X_train) test_vectors = vectorizer.transform(X_test) Step 4: 构建模型。 在这里,我们使用多项式朴素贝叶斯算法,因为它适用于文本分类问题。通过训练模型,我们可以得到一个用于分类新文本的模型。 代码实现: # 训练分类器 clf = MultinomialNB() clf.fit(train_vectors, y_train) Step 5: 模型评估。 在这里,我们使用测试集对模型进行评估,并计算模型的准确度。 代码实现: # 预测测试集结果 y_pred = clf.predict(test_vectors) # 计算准确度 acc = accuracy_score(y_test, y_pred) print("Accuracy:", acc*100) Step 6: 结果可视化。 在这里,我们使用Matplotlib库将模型的结果可视化。 代码实现: # 绘制结果柱状图 fig = plt.figure(figsize =(10, 7)) plt.bar(range(len(y_test)), y_test, width = 0.4) plt.bar(np.array(range(len(y_pred))) + 0.4, y_pred, width = 0.4) plt.show() 以上是使用Python实现文本分类器的一些步骤和代码。通过利用这些代码和数据集,你可以快速构建一个用于文本分类的机器学习模型,并可以用于一些具体的应用场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值