Python实现中文最大逆向匹配分词算法

学习流程记录20170502​经过查阅资料对最大逆向匹配算法上有了概念性的理解, 但是要具体用某一种编程工具来实现​还是需要好好思考一下, 需要用什么方法实现,以及各种语法规则手中材料有一些文章的已经​切好的词, 放在表格的某一列,一词一格. 停用词表一个, 一词一格N篇待切文章(均在切词表有)​由于数据较大可以自己制作小型测试数据,以方便调试​.5.7–5.10import xlrddef r
摘要由CSDN通过智能技术生成

学习流程记录

20170502​

经过查阅资料对最大逆向匹配算法上有了概念性的理解, 但是要具体用某一种编程工具来实现​还是需要好好思考一下, 需要用什么方法实现,以及各种语法规则

手中材料有一些文章的已经​切好的词, 放在表格的某一列,一词一格.

停用词表一个, 一词一格

N篇待切文章(均在切词表有)​


由于数据较大可以自己制作小型测试数据,以方便调试​.

5.7–5.10
import xlrd

def read_txt(path):
#    path = r'D:\Ditys\python learning\学习任务\20170313最大逆向匹配分词算法\测试数据\测试文本.txt'
    with open(path, 'r',encoding = 'gbk')as f_txt:   #需要加ingore 忽略不在gbk等之类的非法字符
        lines = f_txt.read()
    print(lines)
    print('-----1------')
    return (lines)

def read_xlsx(path,colnum):
    print('-----2------')
    xl = xlrd.open_workbook(path)  
    table = xl.sheets()[0]
    data = list(table.col_values(colnum)) 
    print(data)
    return data  #分别读取的匹配词表


def deal_data(data,word_list):
    print('开始处理数据')
    dling = ''  #用于待切字符串 (默认子串长度是预设词长)
    dealed = ''  #把切好的
    maxwor_len = 2  #预设最大词长
    while len(data)>0 :        
        if len(data)<=maxwor_len:  #切到最后几个字的时候(小于预设词长)
            dling = data      #            print(dling)
        else:
            dling = data[-maxwor_len:]   #从倒数第maxlen 到最后,都取出来
        print(dling)
        now_len = len(dling)
        for i in range(0,now_len): ###循环次数是dling的初长度
            print(
  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值