重复值处理
重复数据对文本分析和建模没有帮助。
#删除重复记录()
文本内容清理
文本中的表达符号和特殊字符通常对文本分析影响不大。通过常规匹配删除文本中指定的字符。
清洁前
#清理文字内容,特殊符号使用正则表达式[!\#$%()*,-。[\\\]^_^{|}~—。[] 《》'' "\ s] () # scheme (text)(,text)# scheme(text):return re _ obj . sub(,text)data[comment]data[comment]。应用(清除)数据。head()
A和B方案都可以,但是B方案更好
原因是方案A直接调用正则表达式的模块实现方案B,即通过对象创建一个正则表达式对象进行模式匹配。两种实现方法都能满足要求。方案B更好,因为方案A也在内部创建一个正则表达式进行匹配,实现时会频繁调用apply。因为数据中有很多记录['comment'],每条记录都会调用一次clear方法,会频繁创建正则表达式对象,但是方案B不会频繁创建正则表达式对象,所以方案B效率更高。
清洗后,