需求:
最近遇到一个朋友问了一个小需求,怎么判断一个字符串是不是日期。
这个问题看起来很简单,实际上稍加分析会发现里面有很多的坑,真要做出一个功能非常完善的判断函数来并不简单的事情。
需求分析:
首先:判断字符串是不是日期格式,最佳最简便的方法是用time模块里面的strptime尝试将字符串转成格式化时间对象,如果转换成功那么肯定是日期格式,如果转换失败那么肯定不是日期格式。
其次:日期格式有多种多样,必须考虑到各种可能性并将其列入模板加以匹配,多次尝试strptime,这样才能避免错漏。
第三:如果要判断的字符串中如果含有中文数字,要对其处理,将中文数字转成英文数字。
代码:
def isdate(datestr):
from time import strptime
from time import strftime
chinesenum = {'一': '1', '二': '2', '三': '3', '四': '4',
'五': '5', '六': '6', '七': '7', '八': '8', '九': '9', '零': '0', '十': '10'}
strdate = ''
for i in range(len(datestr)):
temp = datestr[i]
if temp in chinesenum:
if temp == '十':
if datestr[i+1] not in chinesenum:
strdate += chinesenum[temp]
elif datestr[i-1] in chinesenum:
continue
else:
strdate += '1'
else:
strdate += chinesenum[temp]
else:
strdate += temp
pattern = ('%Y年%m月%d日', '%Y-%m-%d', '%y年%m月%d日', '%y-%m-%d')
output = '%Y年%m月%d日'
for i in pattern:
try:
ret = strptime(strdate, i)
if ret:
return strftime(output, ret)
except:
continue
return False
datelist = ['2020年11月23日', '2020-11-23',
'二零二零年十一月二十三日', '二零年十一月二三日', '20年1月5日', '20年01月05日']
for i in datelist:
print(isdate(i))
out:
2020年11月23日
2020年11月23日
2020年11月23日
2020年11月23日
2020年01月05日
2020年01月05日
代码讲解:
代码中比较麻烦的是中文数字转英文,尤其麻烦的是中文数字’十’,当它单独存在时要转成’10’,当它前面没数字后面有数字要转成’1’,当它前面、后面都有数字时要忽视它不转。
另外若遇到日期二十日写成廿日的,请自行在代码里面添加处理逻辑,这种情况比较少见,暂不加入循环避免影响运行效率。
partern里面我加了4种常见的字符串日期写法,如果你遇到要处理的日期字符串有别的写法要添加到这里面。
output里面也是同理,可以根据自己的需求修改日期输出的格式。
具体日期模板怎么改可以看看我以前写的关于“python之time模块详细梳理”的文章。