python爬虫基础（1）-- 爬虫基础知识

最新推荐文章于 2024-10-13 19:04:04 发布

墨_风

最新推荐文章于 2024-10-13 19:04:04 发布

阅读量165

点赞数

分类专栏：学习笔记文章标签： python python爬虫基础

本文链接：https://blog.csdn.net/mocoll/article/details/119387698

版权

学习笔记同时被 2 个专栏收录

207 篇文章 1 订阅

订阅专栏

编程语言

98 篇文章 1 订阅

订阅专栏

一、爬虫基础知识

1.1、爬虫分类

● 通用爬虫: 搜索引擎抓取系统重要组成部分，抓取的是一整张页面数据。

● 聚焦爬虫:建立在通用爬虫的基础之上，抓取的是页面中特定的局部内容。

● 增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

1.2、反爬机制

门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

1.3、反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段，破解]户网站中具备的反爬机制，从而可以获取门户网站的信息

1.4、robots. txt协议（君子协议）

规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

https://www.taobao.com/robots.txt（淘宝）

1.5、http协议

概念:就是服务器和客户端进行数据交互的一种形式。

1.5.1、常用请求头信息

-User-Agent:请求载体的身份标识

-Connection:请求完毕后，是断开连接还是保持连接

1.5.2、常用响应头信息

Content-Type:服务器响应回客户端的数据类型

1.5.3、https协议

安全的超文本传输协议

加密方式

对称秘钥加密

非对称秘钥加密

证书秘钥加密

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

墨_风

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫基础教程-主要讲解requests库

04-10

本教程将介绍Python爬虫的基础知识和常用技术，帮助你快速入门Python爬虫编程。本教程介绍了Python爬虫的基础知识和常用技术，包括发送HTTP请求、解析HTML、提取信息、保存数据、反爬虫策略等。通过学习本教程，你...

python爬虫基础项目--爬取百度贴吧前十页.pdf

03-15

Python爬虫基础项目--爬取百度贴吧前十页 Python爬虫基础项目旨在爬取百度贴吧前十页的内容，并将其保存到本地文件夹中。本项目使用了Python语言和Requests库来实现网络爬虫的功能。标签：Python、爬虫、网络爬虫...

参与评论您还未登录，请先登录后发表或查看评论

python学完那部分能写爬虫_学会Python这几个类库使用，快速写爬虫不是问题（详细步骤附源码）...

weixin_42516600的博客

12-28

129

作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。如果手机上显示代码错乱，请分享到QQ或者其他地方，用电脑查看！！！python能干的东西有很多，这里不再过多叙述，直接重点干货。首先对的scrapy命令行使用的一个介绍。创建爬虫项目scrapy startproject 项目名例子如下：...

爬虫基础（一）

weixin_43056654的博客

01-14

372

1、URL基本格式 schems ????/ host [:port #] / path / …/ [?query-string ] [# anchor] scheme : 协议（例如 http / https） host : 服务器的 IP地址或域名 port # ：服务器的端口（默认端口为80端口） path ：访问资源的路径 query-string ：参数（发送给http服务器的数据） ...

爬虫--基础

SkyJianWei的博客

09-03

285

request 模块使用一、参数设置 import request url = "https://www.baidu.com" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ...

Python爬虫---使用百度翻译

z099164的博客

10-25

2635

版权申明本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。商务作用请前往 api.fanyi.baidu.com 购买付费的 api。若有侵犯，立即删文！实现思路在网站文件中找到隐藏的免费 api。传入 api 所需要的参数并对其发出请求。在返回的 json 结果里找到相应的翻译结果。由 js 算法生成的 signcookie 检测token 暗号进入百度翻译，随便输入一段需要翻译的文字。

python爬虫基础知识

baidu_31295661的博客

01-12

2744

01 一、基础入门 1.1 什么是爬虫爬虫(spider，又网络爬虫)，是指向网站/网络发起请求，获取资源后分析并提取有用数据的程序。从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。 1.2 爬虫基本流程用户获取网络数据的方式：方式1：浏览器提交请求--->下载网页代码--->解析成页面方式2：模拟浏览器发送请求(获取网页代码)-&gt...

Python 基础（一）：入门必备知识

热门推荐

Python小二

10-30

116万+

Python 入门必备知识，你都掌握了吗？

python爬虫基础知识（有案例）

m0_56535913的博客

10-23

1094

爬虫是通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。通过python的requests库可以实现高效的数据爬取，本文介绍了爬虫的基本概念和requests库的基本使用，来实现用python爬虫爬取网页小说或者其他的正文部分，并将结果保存到input.txt文件中的案例。

2401_84139944的博客

05-08

935

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

python爬虫接单-资料总结

weixin_47895597的博客

07-05

5980

相信看到我这篇文章的朋友们，都是奔着赚钱来的。当初我也是冲着爬虫接单可以赚钱，一下就报了个将近3000元的爬虫班。python爬虫确实可以接单赚钱。后来学会了之后就迫不及待地加入了接单行列。也确实赚了一些。希望这篇文章可以帮助你们，对爬虫有一个认识。一、开发工具 1、python 3.6（我个人推荐3.6版本的，因为之前我使用3.7版本的发现有些函数没有，然后又换了3.6的） 2、pycharm (这个最新版的都可以) 二、基础爬虫大部分是用python写的，所以学爬虫之前要有一些pyth...

python爬虫之JS逆向——爬虫基础

qq_63043783的博客

05-29

1880

本文介绍了前端开发中的三大基础技术：HTML、CSS和JavaScript。其中，涵盖了HTML标签、CSS样式表、JavaScript基础语法、运算符、分支语句、循环语句、函数以及内置方法等内容，旨在帮助读者了解前端开发的基础知识，在将来服务于爬虫

python爬虫案例wooyun-public-master.zip

05-31

在"python爬虫案例wooyun-public-master.zip"中，我们可以深入探讨Python爬虫技术的相关知识点，包括基础概念、常用库、网络请求、HTML解析、数据存储等方面。 1. **基础概念** - **爬虫**: 一种自动浏览并提取...

python爬虫案例CnkiSpider-master.zip

06-04

项目中可能用到的基础知识包括变量、数据类型、控制结构（如循环、条件语句）、函数定义以及异常处理。 2. **网络请求库**：在Python中，常见的网络请求库如`requests`用于发送HTTP请求，获取网页内容。掌握如何...

python爬虫案例weibo-crawler-master.zip

05-31

1. **网络爬虫基础**：网络爬虫是自动抓取互联网信息的程序，它通过模拟浏览器发送HTTP请求并接收响应来获取网页内容。在Python中，常用的爬虫框架有Scrapy和BeautifulSoup等。 2. **请求库**：如`requests`，用于...

【人工智能学习之PaddleOCR快速上手】

Jiagym的博客

10-12

1168

在配置文件中，可以设置组建模型、优化器、损失函数、模型前后处理的参数，PaddleOCR从配置文件中读取到这些参数，进而组建出完整的训练流程，完成模型训练，在需要对模型进行优化的时，可以通过修改配置文件中的参数完成配置，使用简单且方便修改。而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和。准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的检测框中的文本与标注的文本相同。如果缺少带标注的数据，或者不想投入研发成本，建议直接调用开放的API，开放的API覆盖了目前比较常见的一些垂类。

Backend - Java 基础

是萝卜干呀的博客

10-11

832

知识量决定了未来能走多远

【python入门到精通专题】8.装饰器