从零学习Python：爬虫基础

最新推荐文章于 2023-12-04 19:58:41 发布

Yuanan_a

最新推荐文章于 2023-12-04 19:58:41 发布

阅读量176

点赞数

分类专栏： Python学习文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/Yuanan_a/article/details/126293213

版权

Python学习专栏收录该内容

29 篇文章 3 订阅

订阅专栏

一、requests基本用法

（一）什么是爬虫

获取网络数据（公开的网络）

（二）爬虫的基本流程

第一步：获取网络数据（requests、selenium）

第二步：解析数据：从获取到的网络数据中提取有效数据（正则、bs4、lxml）

第三步：保存数据（csv、excel、数据等）

（三）requests

python获取网络数据的第三方库（基于http或者https协议的网络请求）

爬虫使用requests的两个场景：直接请求网页地址、对提供网页数据的数据接口发送请求

（四）requests基本用法

1）对目标网页直接发送请求

response = requests.get(网页地址)

获取指定页面的数据返回一个响应对象

import requests

response = requests.get('https://cd.zu.ke.com/zufang')
print(response)     # <Response [200]>    200 - 请求成功

获取响应的状态码

print(response.status_code)
if response.status_code == 200:
    pass

获取响应头

print(response.headers)

请求内容（返回的真正有用的数据）

1）response.content - 二进制类型的数据：图片、视频、音频等
例如：图片下载

2）response.text - 字符串类型的数据：网页\

3）response.json() - 对请求内容做完json解析后的数据：json数据接口

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yuanan_a

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从零学习Python：爬虫基础

python基础
复制链接

扫一扫

专栏目录

完整python项目，python爬虫爬取今日头条后台数据，使用flask框架。html实现前端

09-30

完整python项目，可以自己运行。利用python爬虫爬取今日头条后台数据。然后使用flask框架实现自己的后台，通过爬虫获取今日头条数据。html实现前端显示数据。网站UI一级界面自己实现，仿照今日头条网站

python爬虫和前端（部分）

qq_56630044的博客

08-11

750

获取网络数据（公开的网络）

参与评论您还未登录，请先登录后发表或查看评论

Python 爬虫前端学习（一）

weixin_44548432的博客

04-09

309

目录 1.前端的组成 1.1.内容从何而来？ 1.2.怎样添加内容？ 1.3Chrome 浏览器作为爬虫的页面分析工具 2.Request 讲解: 3.网络爬虫的基本构成（GET/POST） 3.1.网络请求 3.2.静态爬虫和动态爬虫 3.3.Requests 构建请求 3.4.cookie 和session 1.前端的组成 1.1.内容从何而来？ ...

day19 爬虫和前端

qq_59778168的博客

08-11

336

爬虫、前端

【python实现网络爬虫（1）】前端概览（html、scc、javascript三剑客）

lys_828的博客

02-02

1086

前端入门前端即网站前台部分，运行在PC端，移动端等浏览器上展现给用户浏览的网页。前端开发一般使用Chrome；核心三大技术：HTML（骨架）、CSS（外表）、JavaScript（动作交互） HTML文件 HTML称为超文本标记语言，是一种标识性的语言。它包括一系列标签．通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描...

零基础学习python及爬虫

01-31

本目录中主要是python基础和爬虫需要用到的常用扩展库的使用 example-1.py python语法基础 example-2.py python控制流与小实例 example-3.py python函数详解 example-4.py python模块实战 example-5.py python文件...

零基础学习python爬虫.zip

最新发布

03-01

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

零基础Python爬虫学习视频！

01-25

零基础Python爬虫学习视频，自学课程，分享出来，大家共同学习！

《零基础：21天搞定Python分布爬虫》课件

05-16

《零基础：21天搞定Python分布爬虫》这个课程针对初学者，旨在通过21天的学习，帮助大家掌握Python爬虫的基础知识以及分布式爬虫的实现。下面，我们将深入探讨该课程可能涵盖的一些关键知识点。首先，Python爬虫的...

零基础Python爬虫从入门到精通-视频教程网盘链接提取码下载 .txt

02-21

针对零基础的同学可以从头学起，具备Python基础的同学建议直接从第52集开始学习爬虫部分视频。教程中示例了多种网站的爬取，包括设计类网站、招聘类网站、图书类网站、图片素材类网站等，还讲解了验证码的破解和常见...

Python爬虫了解Web前端——HTML

最後の後悔的博客

07-21

700

和标签用于界定标题元素的范围，也就是说，和

Python爬虫学习之路（1）--前端

qq_40043516的博客

03-31

1707

学习前的准备最近一直想找一种督促自己学习的方法，感觉似乎写博客是一个不错的选择。所以这些博客的主要目的当然是让自己静下心来巩固复习，当然如果能对别人有所帮助，那就再好不过了。我是在win10+pycharm上编写python的，至于一些库，使用的时候再导入吧。前端三大件html，css，javascript 学习爬虫之前一定要对前端知识有所了解，当然要求不是精通，但是一定要大体读懂界面的源代...

python网络爬虫前端技术_Python 3开发网络爬虫(二)

weixin_39813574的博客

11-30

119

上一回, 我学会了用伪代码写出爬虫的主要框架;用Python的urllib.request库抓取指定url的页面;用Python的urllib.parse库对普通字符串转符合url的字符串.这一回, 开始用Python将伪代码中的所有部分实现. 由于文章的标题就是”零基础”, 因此会先把用到的两种数据结构队列和集合介绍一下. 而对于”正则表达式“部分, 限于篇幅不能介绍, 但给出我比较喜欢的几个参...

python爬虫——web前端基础（2）

weixin_30748995的博客

06-13

图像标记------->>>> <img>图像标记，用来在网页中显示图像。使用方法为：<img src="路径/文件名.图片格式" width="属性值" height="属性值" border="属性值" alt="属性值">. <img>标记主要包括以下属性： src：用来指定我们要加载的图...

用Python手把手教你实现一个爬虫（含前端界面）

热门推荐

软贱开发攻城狮

12-04

1万+

随着互联网的飞速发展，再加上科技圈的技术翻天覆地的革新，互联网上每天都会产生海量的数据，这些数据对于企业和个人都具有重要的价值。作为开发者对数据处理并不陌生，关于使用python应该也不会陌生，因为现在python语言已经在初中阶段就开始普及了，关于python的主要功能之一的爬虫想必也不陌生，其实爬虫（也称网络蜘蛛）是一种能够自动抓取网络数据的工具，它可以帮助我们从网络上获取所需的信息。

python 19 认识爬虫+认识前端开发

woaixuexi6666的博客

08-12

2067

爬虫

#4Python爬虫的进阶之路---Web前端与HTML

lrzbupt的博客

03-26

HTML结构表格属性 <!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <title>Title</title> </head> <body> ...

py爬虫爬取网页前端页面信息进行数据分析学习笔记

Zyh's blog

07-14

1195

python爬虫流程概述开发者工具首先我们通过网站开发者工具中的network块，对计算机与web服务器之间的交互响应数据包中的资源，进行抓取，得到数据包的相关信息。对于python爬虫程序中，我们需要注意的一些点: 请求函数(get，post)中的headers参数问题： 1）user_agent(客户机是通过什么发出请求的，在chorm的开发者工具中找到，如上图最后一行)：对于该参数我们需要注意，服务器是能够检测你的请求数据帧的，当服务器检测到你是通过python的爬虫发出的请求，也就是g

Python进阶之前端和爬虫基础

LJBXE的博客

01-10

747

前端和爬虫基础一、了解前端页面源代码 1、了解前端页面源代码的构成 html全称HyperText Mackeup Language，翻译为超文本标记语言，它不是一种编程语言，是一种描述性的标记语言，用于描述超文本内容的显示方式，主要由三样东西构成：标签 - 数据（content - 承载了页面的内容）层叠样式表（CSS）- 显示（display - 渲染页面） JavaScript(JS) - 行为（behavior - 控制页面交互式行为）命名规范：驼峰式命名（从第二个单词开始首字母

零基础Python逆向爬虫教程：从入门到精通

适合对Python感兴趣的新手、Python爬虫和逆向爱好者、想通过爬虫技能做副业的人以及希望扩展技术领域的学习者。" 在教程中，首先介绍了学习编程语言时常遇到的环境变量概念。环境变量是操作系统用来指定程序运行时...