闲来无事,爬取网页玩的时候,发现某网站的验证码是区分大小写的,但打码平台只能返回小写,肿么办呢,想了个比较low的方法,把所有可能的结果列出来,写个多线程去访问,总有一款适合你,不废话直接上码。下面的方法就是将任意长度的字符串列出所有的大小写组合:
from itertools import combinations
def combination(code):
result_list = []
code = code.lower()
for i in range(len(code)):
combins = [c for c in combinations(range(len(code)),i)]
for j in combins:
code_old = []
for y in code:
code_old.append(y)
for z in j:
code_old[z] = code_old[z].upper()
result_list.append("".join(code_old))
result_list.append(code.upper())
return set(result_list)
a = combination(code="abcd")
print a
print len(a)
结果如下:
set(['abcd', 'Abcd', 'aBcD', 'aBcd', 'aBCD', 'aBCd', 'abCD', 'AbCd', 'AbCD', 'AbcD', 'ABCD', 'ABCd', 'abcD', 'ABcd', 'abCd', 'ABcD'])
16
之后就可以起个线程池去爬取了。
2018年10月24日
新方法,利用笛卡尔积运算得到结果
from itertools import product
for x,y,z,f in product(['a','A'],['b','B'],['c','C'],['d','D']):
print(x,y,z,f)
a b c d
a b c D
a b C d
a b C D
a B c d
a B c D
a B C d
a B C D
A b c d
A b c D
A b C d
A b C D
A B c d
A B c D
A B C d
A B C D