爬虫的运行原理

本文详细介绍了网络爬虫的工作原理,从打开网页、发起HTTP请求到解析HTML文档,再到爬取多个页面的过程。关键技术和工具包括HttpClient用于高效发送网络请求,以及Jsoup用于解析HTML内容。此外,还探讨了如何利用Socket、HttpURLConnection和HttpClient进行网络请求,以及如何通过Jsoup获取和解析HTML数据。
摘要由CSDN通过智能技术生成

爬虫的运行原理
你自己如何获取网页上的数据?
1、打开一个网页
2、复制 标题 新闻内容 下载图片
爬虫爬取一个页面的流程
3、指定一个URL
4、发起一个网络请求 HTTP
5、得到一个HTML文档
6、解析HTML文档
爬虫爬取多个页面
1、指定很多个URL
数据结构 list
2、从list中依次拿取url
发起一个网络请求 HTTP
得到一个HTML文档
解析HTML文档
顺便解析出其他URL
将解析的URL存放到等待爬取的URL中
爬虫的原理图
步骤说明:
1、将一个种子URL存放到队里中
2、从队列中读取一个URL
3、发起网络请求(上图4-5-6步)
3.1、域名解析,得到IP地址
3.2、发起HTTP请求
3.3、下载页面
4、解析HTML文档(上图7-8-9步)
* 解析HMTL文档获取网页中所有URL
分页页面是否爬取过
如果没有爬取就放入待抓取的URL队里中
分析网络爬虫开发技术
需求:爬取一个页面的内容
1、人的操作:找到URL 输入到浏览器的地址栏 回车
浏览器帮我们发送了网络请求
技术实现:如何发送网络请求
Socket(服务端、客户端)
HttpURLConnection(用来访问http连接)
HttpClient (操作网络请求更快的API) 学会HTTPClient
三个技术点之间的关系:
Socket原生底层(ip、port) 除非我们自己开发游戏服务器
HttpURLConnection JDK提供的一套访问Http资源的API
HttpClient 基于HttpURLConnection高度封装,不需要关注网络请求的细节。
2、人的操作:得到一个HTML文档二进制数据
浏览器帮我们解析了二进制数据,将网页按照HTML的标准呈现给我们
技术实现:如何获取HTML页面
Inputstream 转化成 String 得到HTML纯文本数据。
知道HTML文档格式,因为我们要进一步解析数据
3、人的操作:人为的复制、粘贴操作
通过代码来解析HTML文档,获取有用的数据。
技术实现:如何解析数据
Document对象
JSOUP 为解析HTML而生。
技术点之间的关系:
Document对象是原生的API,Jsoup是更高级的框架。
总结:爬虫开发的两个核心技术

  • Httpclient:帮助我们更好发送网络请求
  • Jsoup:帮助我们更好的解析html。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值