采用微博文本,文本内容中,很多都带@XXX作者的名称。这类名称的存在, 严重影响数据的质量。
'@喵了个咪://@快快封刀:化妆//@我马上来:是啊,今天这个活动搞得不错 '
经过正则处理后:
'是啊,今天这个活动搞得不错 '
import re
a='//@喵了个咪://@快快封刀//@我马上来:是啊,今天这个活动搞得不错 '
b=re.findall(r'(//@.*?:)',a)
for i in range(len(b)):
a=a.replace(str(b[i]),'')
print(a)