中文新闻标题分类

该博客介绍了如何在华为云ModelArts平台上,利用PyTorch和Transformers库实现BERT模型对中文新闻标题的分类。实验环境为PyTorch 1.8,CUDA 10.2,CUDNN 7,配备了1块32GB的V100 GPU和8核64GB的CPU。
摘要由CSDN通过智能技术生成
import os
import sys
import pickle
import logging

logging.basicConfig(
    format='>>> %(asctime)s %(levelname)s %(message)s',
    datefmt='%Y-%m-%d %H:%M:%S',
    level=logging.INFO,
    stream=sys.stdout,
    # force=True,
)

import numpy as np
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.feature_extraction.text import TfidfVectorizer

def load_txt(path, mode):
    '''
    TODO
    from random import shuffle
    '''
    with open(path, mode='rt', encoding='utf-8') as f:
        lines = f.readlines()
    if mode == 'tr':
        xl,yl= [],[]
        for line in lines:
            line = line.strip()
            parts = line.split('\t')
            if len(parts) == 2:
                string,lbl = parts
                xl.append(string)
                yl.append(int(lbl))
        return xl,yl
    elif mode == 'te':
        xl = []
        for line in lines:
            line = line.strip()
            xl.append(line)
        return xl
    else:
        raise KeyError

def load_data():
    logging.info
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值