新浪的每一条微博、评论、私信都有id,同时也有一个url。
以微博为例,每条微博都有一个url,例如http://weibo.com/1594536477/z9Ad7z6AG
其最后的z9Ad7z6AG就是该微博的url,这个url和微博的id有一个加密对应,就是10进制和62进制之间的转换。
转换规则是,url串值从最后往前,每四个字符为一组,作为一个62进制数,然后将各个62进制数转换成对应的10进制数,再将最终结果连接起来,就是该微博的id。
代码如下:
#62 to 10 dict
ALPHABET = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
DICT = {}
def get_dict():
for index in range(len(ALPHABET)):
DICT[ALPHABET[index]] = index
#62 to 10
def key62_to_key10(str_62):
value = 0;
for s in str_62:
value = value * 62 + DICT[s]
return value
#transfrom msg_url to msg_id
def murl_to_mid(murl):
length = len(murl)
mid = ''
group = int(length/4) #four characters per group
last_count = length % 4 #head group character counts
for loop in range(group):
value = key62_to_key10(murl[length-(loop+1)*4:length-loop*4])
mid = str(value) + mid
if last_count:
value = key62_to_key10(murl[:length-group*4])
mid = str(value) + mid
return mid
先执行get_dict(),再执行murl_to_mid,就得到了对应的微博id。
给一个测试数据:
url : xvptc5eRe
mid: 3374860781248756