起点 字数 反 反爬虫
如何 获取这5个数字呢???
字数对应的源代码如下:
说明一下:
这是起点的一种反爬措施,起点有自己的数字库,在每次打开网页或刷新网页时,这一串数字都会改变,想要去和数字一 一对应都不可能,但是这一串数字和与之解析的数字库是对应的,只要找到对应的数字库,解析一下,就可以形成映射关系:
提取 5串 字符串和对应的数字库
注意:不要用解析器去解析,直接用正则表达式去提取:
response = requests.get(url).text
pattern = re.compile('</style><span.*?>(.*?)</span>',re.S)
# 获取当前页面所有被字数字符
numberlist = re.findall(pattern, response)
# 获取当前包含字体文件链接的文本
reg = re.compile('<style>(.*?)\s*</style>',re.S)
fonturl = re.findall(reg,response)[0]
# 通过正则获取当前页面字体数字库的链接
url = re.search('woff.*?url.*?\'(.+?)\'.*?truetype', fonturl).group(1)
numberlist :得到5个数字对应的字符列表
url :得到数字库的链接
解析数字库:
ontTools是一个用Python编写的用于操作字体的库。该项目包括TTX工具,可以将TrueTyp