python爬虫：使用knn算法破解猫眼动态字体反爬

最新推荐文章于 2020-11-23 18:22:54 发布

xfs-coder

最新推荐文章于 2020-11-23 18:22:54 发布

阅读量1.1k

点赞数

分类专栏： anti-anti-spider 文章标签：字体反爬猫眼电影 knn算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29570381/article/details/103035678

版权

本文介绍了如何使用knn算法破解猫眼电影网站上的动态字体反爬策略。通过获取字体文件，保存字符字形坐标，训练knn模型，并进行预测，最终达到100%的成功率。

摘要由CSDN通过智能技术生成

猫眼字体反爬

动态变化的字形使用阈值判断误差率较大，甚至看到有的老哥使用ocr去搞…，大概两个月前，第一次看到有大佬使用knn算法搞字体反爬(源码地址)，听说效果不错，一直没有时间去尝试，不仅仅是没有时间，对于未知领域特别是机器学习，不知道从何搞起，但是遇到问题总得解决，今天逼着自己去搞

knn算法介绍

如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别
举个例子，你可以通过观察某位老哥交往的朋友，大概能了解到这个老哥是什么样的人，毕竟物以类聚，人以群分

具体实现流程

获取n套字体文件(越多越好)，然后将所有字符对应的字形坐标信息保存到一个列表当中(注意做好字符与字形坐标的对应关系)
使用knn算法训练数据, 通常情况下，拿到样本数据，先进行缺失值处理，然后取出特征值和目标值，再对样本数据进行分割，分为训练集和测试集，然后再对样本数据进行标准化处理，最后进行训练预测，由于采集的字体数据不多(偷个懒，大家别学我)，如果按随机分割的方式，训练集容易缺失某些字符，导致预测测试集的结果误差率较大，所以在此固定前40个样本为训练集，最后10个样本为测试集合，另外

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。