需求:爬取黄页88 网站下的一些公司的详情信息
eg:http://b2b.huangye88.com/gongsi/company561409/detail.html
出现的问题:在解析手机号的时候,遇到数据加密,在页面上看到正常的手机号,在网页源码中为加密字体
获取到网页的源码后,可以看到数据是这样的方式
获取过程不做赘述,相信熟悉一些爬虫的同学应该都清楚,现在说下基础解密方式
不多废话,直接上代码
def decrypt_phone(encrypt_number):
"""
:param encrypt_number: 加密后的手机号
:return:
"""
code_string = encrypt_number.strip(';')
# 替换 &# 为 0,用于后面直接转换为10进制数
code_string = code_string.repl