Python下的英文预处理

最新推荐文章于 2024-06-26 20:13:04 发布

活着的隐形人

最新推荐文章于 2024-06-26 20:13:04 发布

阅读量2w

点赞数 2

分类专栏：自然语言处理 Python 文章标签： python nlp 英文预处理

本文链接：https://blog.csdn.net/caicai1617/article/details/21690911

版权

一得到原始文本内容

    def FileRead(self,filePath):
        f = open(filePath)
        raw=f.read()
       return raw

二分割成句子

    def SenToken(self,raw):#分割成句子
        sent_tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')
        sents = sent_tokenizer.tokenize(raw)
        return  sents

三句子内容的清理，去掉数字标点和非字母字符

    def CleanLines(self,line):
        identify = string.maketrans('', '')
        delEStr = string.punctuation +string.digits  #ASCII 标点符号，数字  
#         cleanLine = line.translate(identify,delEStr) #去掉ASCII 标点符号和空格
        cleanLine =line.translate(identify,delEStr) #去掉ASCII 标点符号
       return cleanLine

四nltk.pos_tag进行词性标注

    def POSTagger(self,sent):
        taggedLine=[nltk.pos_tag(sent) for sent in sents]
       return taggedLine

五 nltk.word_tokenize分词

def WordTokener(self,sent):#将单句字符串分割成词
        result=''
        wordsInStr = nltk.word_tokenize(sent)
       return wordsInStr

六 enchant拼写检查

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

活着的隐形人

关注关注

2
点赞
踩
36

收藏

觉得还不错? 一键收藏
8
评论
Python下的英文预处理

一得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() return raw二去除停用词（nltk.word_tokenize） tokens = nltk.word_tokenize(raw) sto
复制链接

扫一扫