清洗好数据后,我们就需要提取我们需要的内容,进行后面的统计
import codecs
filepath="D:\\数据处理\\good.txt"#需要打开文件的路径
savefilepath="D:\\数据处理\\密码集.txt"#需要写入文件的路径
file=codecs.open(filepath,"rb","utf-8","ignore")
savefile = open(savefilepath, "wb")
print("start")
num=file.readline()#全部读取
for i in num:
num1=i.split("----")#分割
if 18>=len(num1)>=6:#筛选
savefile.write(num1[1].encode("utf-8"))#用二进制写入
else:
break
print("end")
file.close()
savefile.close()
这样子就可以提取出来了