数据清洗一:去除非中文字符
删除空格后文本中的所有非中文字符
-
原始数据
队列 循环队列为空队列的条件是:Q.rear==Q.frontQ.front=0,Q.(rear+1)%MaxSize==Q.front,Q.rear=0,Q.rear==Q.front 物理结构|链表|队列 在存储结构上,如果用带头节点单链表实现队列(假定front和rear分别为队首和队尾指针),则删除一个结点的操作为front.next=front.next.nextfront.next=front.next.next,rear=rear.next,rear=front.next,front= front.next 栈|队列 栈和队列共同点是允许在端点处进行操作线性表先进后出,先进先出,允许在端点处进行操作线性表,无共同点
-
处理后的数据
队列 循环队列为空队列的条件是 物理结构|链表|队列 在存储结构上如果用带头节点单链表实现队列假定和分别为队首和队尾指针则删除一个结点的操作为 栈|队列 栈和队列共同点是允许在端点处进行操作线性表先进后出先进先出允许在端点处进行操作线性表无共同点
-
源码
originalfile = open("./data/original.txt", "r", encoding='utf-8') outfile_characters_remove = open("./data/characters_remove.txt", "w", encoding='utf-8') pattern = re.compile(u'[^\u4e00-\u9fa5]')#自定义正则表达式后可以用于特定字符的去除 for line in originalfile: line_concept = line.split(" ", maxsplit=1)[0] line_content = line.split(" ", maxsplit=1)[1] line_content = re.sub(pattern, '', line_content) outfile_characters_remove.write(line_concept + ' ' + line_content + '\n') originalfile.close() outfile_characters_remove.close() print("Data has been cleaned!")