HTML防数据采集

最新推荐文章于 2024-01-25 18:28:32 发布

哈喽沃德er

最新推荐文章于 2024-01-25 18:28:32 发布

阅读量223

点赞数

文章标签： html 前端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javagty6778/article/details/128629251

版权

本文介绍了防止数据采集的常见方法，如验证码、登录验证和数据加密等，并详细阐述了如何通过HTML和自定义字体（web-font）实现防采集，通过创建自定义字体并设置字符映射，使爬虫采集到的数据无法还原，保护网站数据不被非法获取。

摘要由CSDN通过智能技术生成

什么是防采集

就是我们想利用爬虫工具采集某个网站的数据（前提当然是公开合法数据），但网站不想给你采集而设置的技术阻挡措施。

常见的防止采集方案

利用输入验证码框验证，在采集某些网站过程中，要求你输入验证码，否则就卡住进行不下去。这是网站最常用且最基础的防采措施之一，它要求你必须你手动输入验证码里的数字和字母，才能继续看到更多信息或者进行下一步，以此来判断你是机器人还是真人。
滑动图片进行拼图验证，它要求你必须滑动拼图到它指定的位置，才能通过验证进行下一步操作。
登录验证，这类网站通常需要登录才能看到更丰富的信息，否则只会展现非常有限的内容。
数据加密防采集，我们在网页上看到的内容是真实的，但我们打开源代码看，这段文字被已经被加密分离，这样当我们用爬虫工具进行数据采集时，所采集下来的数据就是各种乱码，法整合成一段完整的文字。
反馈虚假数据，这种防止采集的方案是把虚假的数据传递给爬虫工具，从而防止数据被采集。
禁止访问网页，主要还是看网站的防采机制设计，如果触发了，通常的结果就是全面封锁和禁止。比如封你的账号、封你的IP地址。一旦被封锁，网站会自动给你错误页面或无法让你正常浏览。

如何利用HTML和自定义字体（web-font）来实现数据防采集

web-font是CSS3中的一种标记 @font-face，在@font-face声明里，你可以声明一种字体，指定这种字体字体库文件从网络某个地址下载或直接引用本地的自定义字体文件。例如在c

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HTML防数据采集

web-font是CSS3中的一种标记 @font-face，在@font-face声明里，你可以声明一种字体，指定这种字体字体库文件从网络某个地址下载或直接引用本地的自定义字体文件。这样就成功引入了icomoon这个自定义字体。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。