Python实现中文最大逆向匹配分词算法

最新推荐文章于 2022-04-08 13:51:54 发布

置顶

Dity_Lee

最新推荐文章于 2022-04-08 13:51:54 发布

阅读量3.4k

点赞数 4

分类专栏： Python学习文章标签： python 算法数据最大逆向匹配中文分词

本文链接：https://blog.csdn.net/Dity_Lee/article/details/71774258

版权

本文记录了使用Python实现中文最大逆向匹配分词算法的过程，包括从单文本处理到批量文本处理的步骤。通过查阅资料和实践，实现了算法核心功能，并利用os模块进行了批量文件读取和存储，最终成功处理了191个txt文档。

摘要由CSDN通过智能技术生成

学习流程记录

20170502

经过查阅资料对最大逆向匹配算法上有了概念性的理解, 但是要具体用某一种编程工具来实现还是需要好好思考一下, 需要用什么方法实现,以及各种语法规则

手中材料有一些文章的已经切好的词, 放在表格的某一列,一词一格.

停用词表一个, 一词一格

N篇待切文章(均在切词表有)

由于数据较大可以自己制作小型测试数据,以方便调试.

5.7–5.10

import xlrd

def read_txt(path):
#    path = r'D:\Ditys\python learning\学习任务\20170313最大逆向匹配分词算法\测试数据\测试文本.txt'
    with open(path, 'r',encoding = 'gbk')as f_txt:   #需要加ingore 忽略不在gbk等之类的非法字符
        lines = f_txt.read()
    print(lines)
    print('-----1------')
    return (lines)

def read_xlsx(path,colnum):
    print('-----2------')
    xl = xlrd.open_workbook(path)  
    table = xl.sheets()[0]
    data = list(table.col_values(colnum)) 
    print(data)
    return data  #分别读取的匹配词表


def deal_data(data,word_list):
    print('开始处理数据')
    dling = ''  #用于待切字符串 (默认子串长度是预设词长)
    dealed = ''  #把切好的
    maxwor_len = 2  #预设最大词长
    while len(data)>0 :        
        if len(data)<=maxwor_len:  #切到最后几个字的时候(小于预设词长)
            dling = data      #            print(dling)
        else:
            dling = data[-maxwor_len:]   #从倒数第maxlen 到最后,都取出来
        print(dling)
        now_len = len(dling)
        for i in range(0,now_len): ###循环次数是dling的初长度
            print(