宗成庆《自然语言理解》第5章作业

本文档引导读者利用汉语切分和标注语料,通过bi-gram技术来实现一个简单的汉语自动分词程序,强调了遵循版权合法性的原则。参考了一篇CSDN博客文章作为实现指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

5-2. 利用汉语切分和标注语料(注意版权的合法性),尝试用bi-gram 实现一个简单的汉语自动分词程序。

#-------------------------------------------------------------------------------
# Name:        n_gram切分中文
# Purpose:     自然语言处理第5章作业
#               水平有限,仅做参考
# Author:      nkenen
#
# Created:     22/02/2020
# Copyright:   (c) Administrator 2020
# Licence:     <your licence>
#-------------------------------------------------------------------------------
import re

symbol = ',.!?。,?!0123456789qwertyuiopasdfghjklzxcvbnmQWERTYUIOPASDFGHJKLZXCVBNM'

#本程序并不是有用的只是将已标注好的1998语料库给转变成无标注的
def Makenomarkedcorpus():
    file = open('F:/自然语言处理/1980pd.txt','w',encoding='utf-8')
    filer = open('F:/自然语言处理/199801_people_s_daily.txt','r',encoding='utf-8',errors='ignore')

    for line in filer:
        str = ''
        flag = 0
        i=0
        while i < len(line):
            if line[i] == '/':
                while line[i] != ' ' :
                    i += 1
                    if i >= len(line):
                        break
                    elif line[i] == ']':
                        str += ']'
                flag = 1
            elif flag == 1:
                str += line[i]
            i += 1
        file.write(str+'\n')

    file.close()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值