爬虫课程一

最新推荐文章于 2024-08-07 08:19:34 发布

weixin_42532500

最新推荐文章于 2024-08-07 08:19:34 发布

阅读量349

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42532500/article/details/98341205

版权

本文介绍了爬虫的基本概念，特别是聚焦爬虫，它针对特定需求，目标明确，返回内容精确。讨论了爬虫与反爬虫的斗争，并概述了爬虫的工作流程，包括找到URL、发送请求、解析数据和数据持久化。通过Python的urllib.request库展示了简单的爬取百度知道的代码示例。

摘要由CSDN通过智能技术生成

这次主要是概念性的介绍：
1.爬虫是灰色产业
2.爬虫分为：
（1）：通用爬虫（百度，搜狗，谷歌之类的）
（2）：聚焦爬虫（这是我要学习的）
1.目标明确
2.对用户的需求非常精确
3.返回的内容很固定
增量式：翻页：从第一页到最后一页
Deep深度爬虫：静态数据：html，css
动态数据：js代码，加密的js
robots：是否允许其他爬虫（通用）
但是聚焦爬虫不遵守robots
爬虫和反爬虫作斗争：资源对等的情况下，胜利的永远属于爬虫
3.爬虫的工作原理：
（1）找到你抓取目标的url是哪一个（找）
（2）使用python代码发送请求获取数据（Java，Go）
（3）解析获取到的数据（精确数据）
1.找到新目标（url）回到第一步（自动化）
（4）数据持久化
python3（原生提供的模块）：urlib.request
1)urlopen:
（1）返回response对象
（2）response.read()
（3）bytes.decode(“utf-8”)
2)get:传参
（

最低0.47元/天解锁文章

weixin_42532500

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

weixin_42532500 CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

131万+: 周排名

145万+: 总排名

9056: 访问

: 等级

172: 积分

31: 粉丝

9: 获赞

3: 评论

18: 收藏

私信

关注

热门文章

分类专栏

zemax 5篇
碎碎念
爬虫 1篇

最新评论

ZEMAX宏学习5
xxt_ng: 博主请问下zemax宏学习有什么好的书推荐么？
ZEMAX宏学习5
qq_36720116: 这个太实用了
ZEMAX宏学习2
qq_36720116: 感谢博主，学习了。补充下，最后两行代码应该是 PRINT "The Initial merit function value is ",MFCN() OPTIMIZE PRINT "The final merit function value is ",MFCN()

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。