学习爬虫心得体会

最新推荐文章于 2022-12-19 14:43:03 发布

秋天来嘞

最新推荐文章于 2022-12-19 14:43:03 发布

阅读量9.6k

点赞数

文章标签：爬虫 python 1024程序员节

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56653212/article/details/120835285

版权

本文详细介绍了网络爬虫的基础知识，包括爬虫的类型、HTTP与HTTPS的区别、URL与URI的构成、请求方式、常见请求头参数、响应状态码，以及JSON数据格式。此外，还探讨了Cookie的原理和使用，以及如何利用Request库构建请求。最后提到了Python中处理Excel文件的openpyxl模块。

摘要由CSDN通过智能技术生成

什么是爬虫：使用编程语言所编写的一个用于爬取Web或Appd数据的应用程序。

爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

怎么爬取数据：
1、找到要爬取的目标网站、发起请求
2、分析URL是如何变化的和提取有用的URL
3、提取有用的数据
爬虫的基本流程：获取网页、解析网页、提取数据、保存数据。

爬虫基础

一、HTTP与HTTPS
●HTTP协议（全称是HyperText Transfer Plrotocal ），中文意思是超文本传输协议，是一种发布和接收HT ML (HyperText Markuup Language) 页面的方法。服务器端口号为80端口。
●HTTPS协议(全称是Hyper Text Transfer Protocol over SecureSocket Layer)，是HTTP协议的加密版本，在HTTP 下加入了SSL层，服务器端口号是443。

二、URL与URI
●URL(网址)是Uriform Resource Locator的简写，统一资源定位符。一个URL由以下几部分组成：

以东方财富网为例：

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。