代码分类功能优化(一)


前言

本文基于代码分类功能开发记录进行了一些优化
1、将分类类别增加至15个类别
2、加入每种语言的keywords表
3、在计算句向量时,加入keywords权重


一、优化思路

上一版模型测试结果:

1、在长文本测试集准确率达98%
2、在真实业务测试集准确率为49%

造成该结果可能的原因:

1、训练数据与真实业务数据相差较大:训练数据为一个完整的代码文件,而业务测试数据为代码段。
2、句向量计算不合理,不能体现每种语言的独特性:先前计算句向量时,用平均词向量代替句向量

二、所做的尝试

1.加入keywords权重计算句向量

在计算句向量时,还是只用平均词向量的计算方式,但加入了keywords的权重,分类模型为xgboost代码如下:

def wam(sentence, w2v_model):
    arr = []
    for s in str(sentence).split():
        if s not in w2v_model.wv.vocab.keys():
            arr.append(np.random.randn(1, 300))
        else:
            if s in keywords_result:
                arr.append(w2v_model.wv.get_vector(s) * 5)
            else:
                arr.append(w2v_model.wv.get_vector(s))
    return np.mean(np.array(arr), axis=0).reshape(1, -1)

两倍权重时:在业务数据上测试,准确率为63%
五倍权重时:在业务数据上测试,准确率为67%

2.更改词向量计算方式

词向量计算出来的向量,可以得到: 国王 + 女 = 女王
但代码之间,并不需要该关系(有点模糊,可以理解为代码与代码之间没有 for + if = XXX的关系),用词向量来将代码转为向量的方式并不合适,于是更改为tfidf的方式,分类模型为xgboost代码如下:

from sklearn.feature_extraction.text import TfidfVectorizer  

def prepare_dataset(dataset_path):
    """Load data files from directory, split into train and test.
    Return lists of target names, training samples, testing samples,
    training targets and testing targets. """
    # dataset_path = get_sgd_data_path()
    dataset = load_files(dataset_path, load_content=True,
                            encoding='UTF-8', decode_error='replace')
    X_train, X_test, y_train, y_test = train_test_split(
        dataset.data, dataset.target, test_size=0.20, random_state=3114795823)
    return dataset.target_names, X_train, X_test, y_train, y_test

dataset_path = '/Downloads/data'
target_names, X_train, X_test, y_train, y_test = prepare_dataset(dataset_path)
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(X_train)

在业务数据集上测试准确率为66%

3.加入keywords

还是使用tfidf+xgboost,但在每种语言训练文件夹下加入了对应的keywords.md文件。如图所示:
在这里插入图片描述
在这里插入图片描述
在业务数据集上测试准确率为67%

4.更改分类模型

向量化依旧使用tfidf,分类模型使用sgd,代码如下:

    def prepare_pipeline(self):
        """ Check to see if pipeline can be loaded from pickle. If not, train
        pipeline. Return pipeline and list of target names."""
        model_path = get_sgd_model_path()
        target_names_path = get_sgd_model_target_names_path()
        if os.path.isfile(model_path):
            keystone = joblib.load(model_path)
            target_names = joblib.load(target_names_path)
        else:
            target_names, X_train, X_test, y_train, y_test = self.prepare_dataset()
            keystone = Pipeline([
                ('vectorizer', CountVectorizer(
                    stop_words='english',
                    # analyzer='char_wb',
                    # max_features=256,
                )),
                ('tfidf', TfidfTransformer()),
                ('classifier', linear_model.SGDClassifier(
                    class_weight='balanced'
                ))  # 默认 SVM
            ])
            keystone.fit(X_train, y_train)
            joblib.dump(keystone, model_path, compress=1)
            joblib.dump(target_names, target_names_path, compress=1)
        return keystone, target_names

在业务数据集上测试准确率为84%


5.仅使用keywords,不使用模型

由于每种语言都有一些独特的关键词,于是尝试计算代码中每种语言keywords的个数,数量最大的特征keywords对应的语言即为预测的代码类型,代码如下:

pathlists = [c_keywords_path, cpp_keywords_path, go_keywords_path, java_keywords_path,\
            lua_keywords_path, js_keywords_path, html5_keywords_path, php_keywords_path,\
            python_keywords_path, rust_keywords_path, swift_keywords_path ]
plmapings = {'c': 0 , 'cpp': 1, 'golang': 2, 'java':3, 'lua': 4, 'javascript':5, 'html':6, 'php':7, 'python':8, 'rust':9, 'swift':10}

def get_pl_keywords(filepath):
    key_words = []
    with open(filepath, 'r', encoding='utf-8') as f:
        key = f.read()
        for i in key.split('\n'):
            key_words.append(i)
    return key_words

def count_keywords_num(text, keywords):
    count = 0
    data = text.split()
    for word in keywords:
        for i in data :
            if word in i:
                count += 1
    return count
def count_all_pl_keywords_num(keywords_pathlists, text):
    all_pl_keywords_num = []
    for keypath in keywords_pathlists:
        key_words = get_pl_keywords(keypath)
        count = count_keywords_num(text, key_words)
        all_pl_keywords_num.append(count)
    return all_pl_keywords_num

def get_pl_type(pathlists, testdata, plmaping):
    pl_keywords_num = count_all_pl_keywords_num(pathlists, testdata)
    pl_index = pl_keywords_num.index(max(pl_keywords_num, key = abs))
    result = list(plmaping.keys())[list(plmaping.values()).index(pl_index)]
    return result
#%%
pl_type = get_pl_type(pathlists, testdata_result, plmapings)

在业务测试集上准确率为67%

后续优化

后续会整理出每种语言的常用包及常用库,加入到keywords中,对准确率应该会有进一步的提升

总结

1、从上面所做的5种测试可以发现,tfidf+keywords+sgd的效果最好,但我一直很不理解,为什么tfidf+keywords+xgboost会不如tfidf+keywords+sgd,如果有理解的话,可以指点一下,万分感谢

2、仅仅使用keywords的效果比使用模型的效果更好,由此可见,对数据的理解也是NLP开发非常重要的一部分。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Matlab 中有很多已经封装好的函数可以用来做图片分类。下面是一个简单的代码示例: ``` % 加载数据集 imds = imageDatastore('path\to\your\images','IncludeSubfolders',true,'LabelSource','foldernames'); % 划分数据集 [imdsTrain,imdsValidation] = splitEachLabel(imds,0.7,'randomized'); % 构建卷积神经网络模型 layers = [ imageInputLayer([28 28 1]) convolution2dLayer(3,8,'Padding','same') batchNormalizationLayer reluLayer maxPooling2dLayer(2,'Stride',2) convolution2dLayer(3,16,'Padding','same') batchNormalizationLayer reluLayer maxPooling2dLayer(2,'Stride',2) convolution2dLayer(3,32,'Padding','same') batchNormalizationLayer reluLayer fullyConnectedLayer(10) softmaxLayer classificationLayer]; options = trainingOptions('sgdm', ... 'InitialLearnRate',0.01, ... 'MaxEpochs',4, ... 'Shuffle','every-epoch', ... 'ValidationData',imdsValidation, ... 'ValidationFrequency',30, ... 'Verbose',false, ... 'Plots','training-progress'); % 训练模型 net = trainNetwork(imdsTrain,layers,options); % 在验证数据集上评估模型 YPred = classify(net,imdsValidation); YValidation = imdsValidation.Labels; accuracy = mean(YPred == YValidation); ``` 这仅仅是一个简单的代码示例,可能需要根据你的数据和任务进行调整。有关更详细的信息,请参阅 Matlab 官方文档。 ### 回答2: 要使用Matlab编写图片分类代码,需要以下步骤: 1.导入图像数据:使用Matlab提供的imread函数导入图像数据,并存储为矩阵形式。 2.特征提取:对于每个图像,通过计算其颜色直方图、纹理特征或形状特征等,提取其特征向量。可以使用Matlab提供的工具箱,如Image Processing Toolbox或Computer Vision Toolbox来实现这些功能。 3.数据预处理:对于提取的特征向量,可能需要进行预处理,以便在后续分类过程中能够更好地区分不同的类别。常见的预处理方法包括数据标准化和降维。可以使用Matlab提供的函数,如zscore和pca来实现。 4.分类模型训练:选择适合问题的分类算法,并使用训练数据集对其进行训练。常见的分类算法包括支持向量机(SVM)、k最近邻(k-NN)和决策树等。可以利用Matlab提供的工具箱,如Statistics and Machine Learning Toolbox或Neural Network Toolbox来构建和训练分类模型。 5.分类预测:使用训练好的分类模型对新的图像进行分类预测。将预处理后的特征向量输入到分类模型中,根据模型输出的结果确定图像所属的类别。 6.结果评估:对分类结果进行评估,计算分类准确率、召回率、F1值等指标,以了解分类算法的性能。可以利用Matlab提供的性能评估函数,如confusionmat和perfcurve进行评估。 7.优化和改进:根据评估结果,可以对图像分类模型进行优化和改进,比如调整分类算法的参数、增加训练数据量或改进特征提取方法,以提高分类性能。 总结:使用Matlab编写图片分类代码,需要导入图像数据、提取特征、数据预处理、模型训练、分类预测和结果评估等步骤。通过选择合适的算法和工具箱,并根据评估结果进行优化和改进,可以得到较好的图像分类效果。 ### 回答3: 使用MATLAB编写一个图片分类代码可以通过以下步骤实现: 1. 导入训练数据:首先,将训练数据集的图像导入MATLAB。可以使用`imread`函数加载图像。例如,假设数据集中包含10个不同类别的图像,可以使用一个数组来存储这些图像。 2. 特征提取:从导入的图像中提取特征。可以使用像素值、颜色直方图、HOG等不同的特征提取算法。选择适合你的分类任务的合适特征。 3. 特征归一化:对提取的特征进行归一化处理,确保不同特征的尺度一致。可以使用`zscore`函数来对特征进行标准化处理。 4. 构建分类模型:选择合适的分类算法来构建模型。常见的分类算法包括SVM、K最近邻、决策树等。你可以使用MATLAB自带的分类功能,如`fitcecoc`(用于多类别分类)、`fitcknn`(用于K最近邻分类)等。根据你所选择的分类算法,设置相应的参数。 5. 模型训练:将归一化后的特征和相应的类别标签输入到分类模型中进行训练。使用`predict`函数对训练数据进行分类,并通过交叉验证等方法来优化模型。 6. 图像分类:使用训练好的模型对新的图像进行分类。首先,导入测试图像并提取特征。然后,将特征输入已训练的分类模型中,使用`predict`函数预测图像所属的类别。 7. 结果评估:评估模型的分类性能。可以计算准确率、召回率、F1-Score等指标来评价模型分类的准确性。 8. 结果可视化:将分类结果可视化,比如绘制混淆矩阵或者展示正确分类和错误分类的图像。 以上就是一个简单的图片分类代码的主要步骤。根据具体的需求和数据集,还可以进行参数调优、特征选择、数据增强等进一步的优化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ToTensor

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值