基于textCNN的法律文本分类（keras）

最新推荐文章于 2024-06-24 12:59:47 发布

solumin

最新推荐文章于 2024-06-24 12:59:47 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习机器学习实验趣味应用

本文链接：https://blog.csdn.net/solumin/article/details/100171234

版权

该博客介绍了基于textCNN的法律文本分类方法，详细步骤包括数据载入、切片、预处理，以及模型建立和训练。在模型构建中探讨了CNN-static和CNN-non-static两种方式，强调了初始化词向量、卷积核尺寸、卷积核数量、激活函数、dropout率和池化等关键参数的选择。训练结果显示，初次训练准确率较低，需要优化参数。

摘要由CSDN通过智能技术生成

数据载入

def load_data():
    train_fname='test_data/data_valid.json'
    """ load data from local file """
    facts = []
    accu_label = []
    article_label = []
    imprison_label = []
    k=0
    with open(train_fname,'r', encoding='utf-8') as f:
        line = f.readline()
        while line and k<10000:
#        while line:
            k+=1
            line_dict = json.loads(line, encoding="utf-8")

            fact = line_dict["fact"]

            accu = util.get_label(line_dict, "accu")
            article = util.get_label(line_dict, "law")
            imprison = util.get_label(line_dict, "time")

            facts.append(fact)

            accu_label.append(accu)
            article_label.append(article)
            imprison_label.append(imprison)
            print('第'+str(k)+'个文档处理完！')
            line = f.readline()
    
    if util.DEBUG:
        print("DEBUG: training file loaded.")
 
    facts = [util.cut_line(line) for line in facts]


    if util.DEBUG:
        print("DEBUG: training data segmented.")
 
    if util.DUMP:
        dump_processed_data_to_file(facts, accu_label, article_label, imprison_label)
    
    print('load_data sucess!')
    return facts, accu_label, article_label, imprison_label

数据切片

def slice_data(slice_size=None):
    if slice_size is None:
        alltext, accu_label, law_label, time_label = load_data()
    else:
        alltext, accu_label, law_label, time_label = load_data()
        randnum = random.randint