Python 白名单的处理

本文介绍了在项目中处理Python白名单词汇的需求,白名单可能包含单词或词组,且存在不规则变化形式。文章探讨了一种有效进行词干提取的方法。
摘要由CSDN通过智能技术生成

项目中需要将 whitelist中的单词,进行词干的提取工作。

whitelist可能如下:

sissied

loveed

mianmianies  hit

Mut  had


因为白名单中可能是单词也可能是词组,而且一些单词可能是三单形式、过去式。

研究了一下,下面的方法可行。


#-*- coding:utf-8 -*-
import nltk


f=open("../test","r")
test=f.read()       # test='sissied\nloveed\nmianmianies hit\nMut had\n'


whitelist = []
word=[]


for w in test:     #读取的test中的每一个基本字符
    if w != '\n':  
   	 word.extend(w)  #在遇到换行符之前,把test中的字母追加到word中,即word用来临时保存whitelist每一行的内容
    else :
        whitelist.append([''.join(word)])  #把word的['s','i','s','s','i','e','d']合并为[‘sissied’]
	word=[]                            #然后把word清零,存放下一个单词



def stem( word):      
        if word[0].islower():    #判断world的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值