宗成庆《自然语言理解》第5章作业

最新推荐文章于 2023-01-19 11:07:43 发布

nkenen

最新推荐文章于 2023-01-19 11:07:43 发布

阅读量1.4k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qq_26954059/article/details/104461975

版权

本文档引导读者利用汉语切分和标注语料，通过bi-gram技术来实现一个简单的汉语自动分词程序，强调了遵循版权合法性的原则。参考了一篇CSDN博客文章作为实现指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

5-2. 利用汉语切分和标注语料（注意版权的合法性），尝试用bi-gram 实现一个简单的汉语自动分词程序。

#-------------------------------------------------------------------------------
# Name:        n_gram切分中文
# Purpose:     自然语言处理第5章作业
#               水平有限，仅做参考
# Author:      nkenen
#
# Created:     22/02/2020
# Copyright:   (c) Administrator 2020
# Licence:     <your licence>
#-------------------------------------------------------------------------------
import re

symbol = ',.!?。，？！0123456789qwertyuiopasdfghjklzxcvbnmQWERTYUIOPASDFGHJKLZXCVBNM'

#本程序并不是有用的只是将已标注好的1998语料库给转变成无标注的
def Makenomarkedcorpus():
    file = open('F:/自然语言处理/1980pd.txt','w',encoding='utf-8')
    filer = open('F:/自然语言处理/199801_people_s_daily.txt','r',encoding='utf-8',errors='ignore')

    for line in filer:
        str = ''
        flag = 0
        i=0
        while i < len(line):
            if line[i] == '/':
                while line[i] != ' ' :
                    i += 1
                    if i >= len(line):
                        break
                    elif line[i] == ']':
                        str += ']'
                flag = 1
            elif flag == 1:
                str += line[i]
            i += 1
        file.write(str+'\n')

    file.close()

最低0.47元/天解锁文章