主要是使用字符串的split()与正则的re.split()方法进行拆分。前者每次处理一种分隔符,后者一次性可以处理多个分割字符。
import sys
import re
reload(sys)
sys.setdefaultencoding('utf-8')
data_text='''
shuob1uShang,why,943586926isM1?
YEAH。SUre,iamis、now i am so boring
xianzais--hi2018-4-17,wozai shang hai jiading
say so&^me ?d-o some23thi^&ngs only for what
zhaohan only 00-//for\\||you
ho[pe you\] zhao yi sun
we can 17
--*</html>
'''
使用split()方法
print data_text.split()
# 如果不加参数的话,默认是按照空白,空格,\t,\r,\n来分割
# 如果想要按照-来分割就直接在括号加上('-')
运行结果:
['shuob1uShang\xef\xbc\x8cwhy\xef\xbc\x8c943586926isM1?', 'YEAH\xe3\x80\x82SUre\xef\xbc\x8ciamis\xe3\x80\x81now', 'i', 'am', 'so', 'boring', 'xianzais--hi2018-4-17,wozai', 'shang', 'hai', 'jiading', 'say',