起点字数反反爬虫

最新推荐文章于 2021-06-30 14:41:28 发布

squabLi

最新推荐文章于 2021-06-30 14:41:28 发布

阅读量1.7k

点赞数 3

分类专栏：爬虫起点字数反反爬虫 python 获取字数文章标签：反反爬虫 python 字数

本文链接：https://blog.csdn.net/IT_arookie/article/details/83180875

版权

本文介绍了起点网站的一种反爬虫策略，涉及到变化的数字串与数字库的对应关系。通过使用正则表达式提取数字串，结合Python的fontTools库解析数字库，建立数字与英文单词的映射，从而解决字数问题。提供了相应的代码示例和时间记录。

摘要由CSDN通过智能技术生成

起点字数反反爬虫

如何获取这5个数字呢？？？
在这里插入图片描述

字数对应的源代码如下：
在这里插入图片描述

说明一下：

这是起点的一种反爬措施，起点有自己的数字库，在每次打开网页或刷新网页时，这一串数字都会改变，想要去和数字一一对应都不可能，但是这一串数字和与之解析的数字库是对应的，只要找到对应的数字库，解析一下，就可以形成映射关系：

提取 5串字符串和对应的数字库

在这里插入图片描述
注意：不要用解析器去解析，直接用正则表达式去提取：

	response = requests.get(url).text
 	pattern = re.compile('</style><span.*?>(.*?)</span>',re.S)
    #  获取当前页面所有被字数字符
    numberlist = re.findall(pattern, response)
    # 获取当前包含字体文件链接的文本
    reg = re.compile('<style>(.*?)\s*</style>',re.S)
    fonturl = re.findall(reg,response)[0]
    # 通过正则获取当前页面字体数字库的链接
    url = re.search('woff.*?url.*?\'(.+?)\'.*?truetype', fonturl).group(1)