1、除去字符串中的符号
testtext=‘淮南市寿县炎刘镇机械厂1|淮南市寿县:安徽蓝博旺机械集团工程车辆有限公司(东门)【创业大道与242省道交叉口南150米】;’
pattern = re.compile(“[\u4e00-\u9fa5a-zA-Z0-9]”) # 只保留中英文、数字,去掉符号
content2 = re.sub(pattern, ‘’, testtext)
print(content2)
2、分词及去重
cutinfo=[x for x in jieba.cut(content2)]
cutinfo1=list(set(cutinfo))
cutinfo1.sort(key=cutinfo.index)
print(‘’.join(cutinfo1))