爬虫基础第一课

最新推荐文章于 2022-01-20 17:50:56 发布

Code_bile

最新推荐文章于 2022-01-20 17:50:56 发布

阅读量117

点赞数

本文链接：https://blog.csdn.net/Code_bile/article/details/116229698

版权

文章目录

爬虫基础第一课

一，爬虫和聚焦爬虫
1，数据来源
企业，政府，第三方平台，爬虫

2.爬虫

3，爬虫的抓取步骤
确定爬取的URL地址
通过HTTP/HTTPS 获取HTML页面

4，聚焦爬虫爬取方法
（1），获取 url list
（2），获取响应内容
（3），提取数据
（4），入库

二，http 和HTTPS
1，端口，http为80 ， https为443
HTTP请求主要分为Get和Post两种⽅法

   2，url  统一资源定位符    url地址
       基本格式：scheme://host[:port#]/path/…/[?query-string][#anchor]
                          https:/    /editor.csdn.net/  md?articleId=116229698
       scheme：协议(例如：http, https, ftp)
        host：服务器的IP地址或者域名 port#：服务器的端⼝（如果是⾛协议默认端⼝，缺省端⼝               80） 
        path：访问资源的路径 
        query-string：参数，发送给http服务器的数据 
        anchor：锚（跳转到⽹⻚的指定锚点位置）
        【port】加不加都可以，在url后面加了的话，不影响
 
 3，客户端请求
 （1）请求行
 请求方法 --空客--url--空格--版本协议--回车符--换行符
 （2）请求头部
 头部字段名-- ： -- 值--回车符--换行符
 ~~~~~
 头部字段名-- ： -- 值--回车符--换行符
 （3）请求数据


 4，服务器响应

三，状态码
200 ---------------成功
302，307------------临时，永久
404------------页面没找到
500----------服务器错误

Code_bile

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础第一课

文章目录爬虫基础第一课一，爬虫和聚焦爬虫1，数据来源企业，政府，第三方平台，爬虫2.爬虫3，爬虫的抓取步骤确定爬取的URL地址通过HTTP/HTTPS 获取HTML页面4，聚焦爬虫爬取方法（1），获取 url list（2），获取响应内容（3），提取数据（4），入库二，http 和HTTPS1，端口，http为80 ， https为443HTTP请求主要分为Get和Post两种⽅法 2，url 统一资源定位符 url地址基本格式：scheme:
复制链接

扫一扫