因研究工作,需批处理类文本文件,删除异常数据,然后重新写入新文件,程序如下:
(因对NumPy的数组操作和Pandas的DataFrame对象操作不熟悉,故此程序基本上是用Python自带库编写)
涉及重点操作:
1、把连续空格替换为逗号row1 = ",".join(row.split())
2、遍历循环列表删除多个元素,应:
倒序循环for i in range(len(ysb)-1,-1,-1):
;
遍历拷贝的list,操作原始的list:
num_list = [1, 2, 3, 4, 5]
for item in num_list[:]:
if item == 2:
num_list.remove(item)
原始的list是num_list,那么其实,num_list[:]是对原始的num_list的一个拷贝,是一个新的list,所以,我们遍历新的list,而删除原始的list中的元素,则既不会引起索引溢出,最后又能够得到想要的最终结果。此方法的缺点可能是,对于过大的list,拷贝后可能很占内存。那么对于这种情况,可以用倒序遍历的方法来实现。
参考:Python的list循环遍历中,删除数据的正确方法
3、列表的每个元素由字符串变为数字