文章目录
爬虫基础第一课
一,爬虫和聚焦爬虫
1,数据来源
企业,政府,第三方平台,爬虫
2.爬虫
3,爬虫的抓取步骤
确定爬取的URL地址
通过HTTP/HTTPS 获取HTML页面
4,聚焦爬虫爬取方法
(1),获取 url list
(2),获取响应内容
(3),提取数据
(4),入库
二,http 和HTTPS
1,端口,http为80 , https为443
HTTP请求主要分为Get和Post两种⽅法
2,url 统一资源定位符 url地址
基本格式:scheme://host[:port#]/path/…/[?query-string][#anchor]
https:/ /editor.csdn.net/ md?articleId=116229698
scheme:协议(例如:http, https, ftp)
host:服务器的IP地址或者域名 port#:服务器的端⼝(如果是⾛协议默认端⼝,缺省端⼝ 80)
path:访问资源的路径
query-string:参数,发送给http服务器的数据
anchor:锚(跳转到⽹⻚的指定锚点位置)
【port】加不加都可以,在url后面加了的话,不影响
3,客户端请求
(1)请求行
请求方法 --空客--url--空格--版本协议--回车符--换行符
(2)请求头部
头部字段名-- : -- 值--回车符--换行符
~~~~~
头部字段名-- : -- 值--回车符--换行符
(3)请求数据
4,服务器响应
三,状态码
200 ---------------成功
302,307------------临时,永久
404------------页面没找到
500----------服务器错误