学习总结week4_4requests

最新推荐文章于 2023-03-15 17:28:08 发布

非鱼丶丶

最新推荐文章于 2023-03-15 17:28:08 发布

阅读量113

点赞数

文章标签：学习 python 开发语言

本文链接：https://blog.csdn.net/m0_72819241/article/details/126291837

版权

python- requests、html、css

一、什么是爬虫 -

就获取网络数据(公开的数据)

网络数据来源：网站对应的网页、手机APP

1.爬虫的基本流程

第一步：获取网络数据(requests、selenium)
第二步：解析数据-从获取到的网络数据中提取有效数据（正则、bs4、lxml）
第三步：保存数据(csv、excel、数据等)

2. requests

Python获取网络数据的第三方库(基于http或者https协议的网络请求)

爬虫使用requests的两个场景：直接请求网页地址、对提供网页数据的数据接口发送请求

3.requests基本用法

1）对目标网页直接发送请求:

response = requests.get('https://cd.zu.ke.com/zufang')
print(response)     # <Response [200]>      200 - 请求成功

# 获取响应的状态码
print(response.status_code)
if response.status_code == 200:
    pass

# 获取响应头
print(response.headers)

请求内容（返回的真正有用的数据）
response.content - 二进制类型的数据(图片、视频、音频等，例如：图片下载)
response.text - 字符串类型的数据(网页)
response.json() - 对请求内容做完json解析后的数据（json数据接口）

print(response.text)

二、前端开发

1.前端开发 - 写各种互联网产品界面（电脑端应用程序除外）
前端开发相关技术：html css js(原生js jQuery Vue React)
html - 负责网页内容
css - 负责网页内容的样式和布局
js - 负责网页内容的变化

三、html

1.不同的标签可以提供不同的内容

1.标签语法结构是固定的（important）
a.双标签：<标签名属性名1=属性值1 属性名2=属性值2…>标签内容</标签名>
b.单标签：<标签名属性名1=属性值1 属性名2=属性值2…> 或者 <标签名属性名1=属性值1 属性名2=属性值2…/>

src 提供图片内容
href 超链接
div 规范网页结构

2.css负责网页内容样式，->更好看

css语法：
选择器{属性名1：属性值1；属性名2：属性值2；…}
style标签可以写css
选择器的作用就是选中需要添加样式的标签
css选择器
1.元素选择器（标签选中） - 将标签作为选择器，选中所有指定的标签
p{} - 选中所有的p标签
2.id选择器 - 在id属性值前面加#作为一个选择器，选中id属性值为指定值得标签
每一个可见的标签都可以设置id属性，并且一个页面中，同一个id值只有一个标签
#p1 - 选中id属性值为p1的标签
3.class选择器 - 在class属性值前加.作为一个选择器，选择class属性值为指定值的标签
不同的标签可以有相同的class值；同一个标签可以有不同的class值
.c1 - 获取class值为c1的所有标签
p.c1 - 获取class值为c1的所有p标签
.c1.c2 - 获取class值为c1、c2的所有标签 class=‘c1 c2 c3’
4.群组选择器 - 将多个选择器用，逗号隔开作为一个选择器
p,a{} - 选择所有的p标签和所有的a标签
#p1,.c1,p{} - 选择id p1，class c1，的p标签
5.子代选择器 - 多个选择器之间用大于符号隔开作为一个选择器
div>p{}
6.后代选择器 - 多个选择器用空格隔开作为一个选择器
div p{}