提取中文词组
原文从如下的txt文件中提取【】中的词组。
【挨边】āi∥biān(~儿)①动靠着边缘:上了大路,要挨着边儿走。②动接近(某数,多指年龄):我六十~儿了。③形接近事实或事物应有的样子:你说的太不~儿!
【挨近】āi∥jìn动靠近:你~我—点儿|两家挨得很近。
【挨批】ái∥pī动受到批评或批判:挨了一顿批。
【挨宰】ái∥zǎi〈口〉动比喻购物或接受服务时被索取高价而遭受经济损失。
【挨整】ái∥zhěnɡ动受到打击迫害:他过去挨过整。
【爱国】ài∥ɡuó动热爱自己的国家:~心|~人士。
程序代码
#! /usr/bin/env python
# -*- coding: cp936 -*-
# -*- coding: encoding -*-
import re
f=open('hello.txt','r')
f_new=file('hello_new.txt','a+')
while True:
line=f.readline()
if line:
p=re.compile(unicode("【(.*?)】","gb2312"))
s=unicode(line,"gb2312",'ignore')
for i in p.findall(s):
print i
f_new.write(i.encode('gb2312'))
f_new.write('\n')
else:
break
f.close()
f_new.close()