学习python的第一天

最新推荐文章于 2024-09-29 19:02:21 发布

小渣渣～

最新推荐文章于 2024-09-29 19:02:21 发布

阅读量62

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63245620/article/details/125719503

版权

scheme://host[:post#]/path/../[？query-string][#anchor]

scheme:协议：（http,https,ftp）

host:

path:

query-string:

anchor:

http://localhost:4000/part01/1.2.html

http://item.jd.com/1193238.html#product-detail

请求

post

get

相应状态码

200：成功

302临时转移到心的url

404：not found

500：服务器内部错误

1XX：指示信息

2XX：成功

3XX：重定向

4XX：客户端错误

5XX：服务器端错误

爬虫：抓取网页上的数据

网页三大特征：

网页有唯一url

网页都是HML来描述页面信息

网页都使用HTTP/HTTPS协议来传输HTML数据

爬虫的设计思路:

确定需要平爬取的URL地址

通过http/https协议获取对应的html页面

提取html页面有用的数据

python做爬虫

开发效率高、支持的模块多、HTTP请求和HTML解析的模块丰富，调用其他接口也非常方便

爬虫的分类

1.通用爬虫：通常指搜索引擎的爬虫

目的：

尽可能大互联网上所有的网页下载下来，放到本地服务器形成备份，在对这写网页做相关处理（提取关键字，去除广告），提供给用户检索接口

抓取流程：

1.选取一部分已有的URL，把这些URL放到带爬取队列

2.从队列里取出这些URL，然后解析DNS得到主机ip，然后去这个ip对应的服务器下载HTML，然后保存到搜索引擎的本地服务器

3.分析这些网页内容，找出网页里面其他的URL连接，继续执行第二步，直到爬取条件结束

Robots协议

通用爬虫

2.聚焦爬虫：针对特定网站的爬虫

面向需求的爬虫，会针对某种特定内容的爬虫

浏览器发送http请求的过程

爬虫requests库

python

import requests

response=requests.get('http://www.baidu.com')//获取内容

response.content//回答的内容

response.content.decode()//字节转换成字符串

response.text

response.encoding='utf-8'

response.text

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。