Py数据处理
玻璃软糖
这个作者很懒,什么都没留下…
展开
-
正则匹配自用整理
^ 匹配字符串的开始。$ 匹配字符串的结尾。\b 匹配一个单词的边界。\d 匹配任意数字。\D 匹配任意非数字字符。x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符)。x* 匹配0次或者多次 x 字符。x+ 匹配1次或者多次 x 字符。x{n,m} 匹配 x 字符,至少 n 次,至多 m 次。(a|b|c) 要么匹配 a,要么匹配 b,要么匹配 c。(x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.s...原创 2021-03-12 12:46:06 · 150 阅读 · 0 评论 -
re.split()的小坑
当使用正则表达式划分字符串时,有一种正则匹配是利用\s匹配空白字符re.split(r'[;,\s]', line) # \s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]但是如果如上编写,在分割如下字符串时的结果是这样的:line = 'asdf fjhk; ijhi, acdks,khcvds, foo're.split(r'[;,\s]', line) >>['asdf', 'fjhk', 'ijhi', 'acdks',原创 2020-08-27 17:43:05 · 1008 阅读 · 0 评论 -
Python读取Excel时把文本数据自动识别为float或int类型
在做项目的时候发现,当excel表中某一列全为数字形式时,pandas读取会把该列判断为float类型,但是我们原本想要的可能是str类型,因此需要对读取的格式进行显示的规定,如下dtype={ '需要按照str类型读取的列名1':str, '需要按照str类型读取的列名2':str } data=pd.read_excel(r"文档路径",dtype=dtype) 参考:https://blog.csdn.net/grandesucesso/art原创 2020-07-13 18:11:22 · 4340 阅读 · 0 评论 -
识别中Excel的空值和空格值
在实践的时候发现,常用的notnull函数并不能将空格识别为空值,但很多时候表格中的空数值是有空格存在的,这样单纯使用notnull就不能满足识别空的需求,经查阅资料,可利用Series的apply方法结合isspace()函数进行判断,修改空格为NaN,这样接下来继续用isnull()或notnull()就可以正常识别出所有的空数值了。df['列名']=df['列名'].apply(lambda x: np.NaN if str(x).isspace() else x)idx_null = df[原创 2020-07-03 17:09:24 · 3263 阅读 · 0 评论