爬虫技术总结

最新推荐文章于 2022-05-30 10:47:46 发布

大司命

最新推荐文章于 2022-05-30 10:47:46 发布

阅读量1.2k

点赞数 3

文章标签： c# 经验分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012270525/article/details/106731852

版权

本文深入探讨了爬虫技术的基本原理，包括如何从网络中批量下载数据至本地，解析网页内容，以及应对反爬虫策略的方法。介绍了常用的爬虫库如Python的request和BeautifulSoup，讨论了模拟浏览器行为和处理动态页面的技术。

摘要由CSDN通过智能技术生成

爬虫技术总结

爬虫是一种可以从网络上批量将数据下载到本地的一种程序。说白一点就是从网络上搞数据的程序。为什么要做这种程序呢？因为手动太累。程序一般是模拟手动操作，那么如果我们要写程序，要怎么去爬取这些数据呢？

首先一般手动从网络上下载一张图片要进行以下步骤：
1.首先进入网站，找到图片
2.右键将图片另存为

那么浏览器要加载一张图片要经过那些步骤呢？
1.程序员通过html和js链接一张图片到网页上
2.发布网页(使网页在用户电脑上)可访问

所以爬虫要做的便是从一堆js里找到这张图片的地址，然后访问这张图片，将这张图片以图片的格式下载到本地。

爬虫可以用的三方库：python的request,BeautifulSoup等，node js的request等,c#的HtmlAgilityPack等

反爬虫的一些策略与爬虫的一些对策：
1.Headers的UserAgent检测–勤换UserAgent
2.IP封锁–加代理
3.请求频率检测-降低请求频率
4.Cookie限制-绕过Cookie限制
5.验证码限制–打码平台或OCR技术
6.动态页面-模拟浏览器，调用浏览器内核

示例：https://github.com/asasascao/52guzhuangSpider

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。