爬虫课程一

本文介绍了爬虫的基本概念,特别是聚焦爬虫,它针对特定需求,目标明确,返回内容精确。讨论了爬虫与反爬虫的斗争,并概述了爬虫的工作流程,包括找到URL、发送请求、解析数据和数据持久化。通过Python的urllib.request库展示了简单的爬取百度知道的代码示例。
摘要由CSDN通过智能技术生成

这次主要是概念性的介绍:
1.爬虫是灰色产业
2.爬虫分为:
(1):通用爬虫(百度,搜狗,谷歌之类的)
(2):聚焦爬虫(这是我要学习的)
1.目标明确
2.对用户的需求非常精确
3.返回的内容很固定
增量式:翻页:从第一页到最后一页
Deep深度爬虫:静态数据:html,css
动态数据:js代码,加密的js
robots:是否允许其他爬虫(通用)
但是聚焦爬虫不遵守robots
爬虫和反爬虫作斗争:资源对等的情况下,胜利的永远属 于爬虫
3.爬虫的工作原理:
(1)找到你抓取目标的url是哪一个(找)
(2)使用python代码发送请求获取数据(Java,Go)
(3)解析获取到的数据(精确数据)
1.找到新目标(url)回到第一步(自动化)
(4)数据持久化
python3(原生提供的模块):urlib.request
1)urlopen:
(1)返回response对象
(2)response.read()
(3)bytes.decode(“utf-8”)
2)get:传参

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值