python- requests、html、css
一、什么是爬虫 -
就获取网络数据(公开的数据)
网络数据来源:网站对应的网页、手机APP
1.爬虫的基本流程
第一步:获取网络数据(requests、selenium)
第二步:解析数据-从获取到的网络数据中提取有效数据(正则、bs4、lxml)
第三步:保存数据(csv、excel、数据等)
2. requests
Python获取网络数据的第三方库(基于http或者https协议的网络请求)
爬虫使用requests的两个场景:直接请求网页地址、对提供网页数据的数据接口发送请求
3.requests基本用法
1)对目标网页直接发送请求:
response = requests.get('https://cd.zu.ke.com/zufang')
print(response) # <Response [200]> 200 - 请求成功
# 获取响应的状态码
print(response.status_code)
if response.status_code == 200:
pass
# 获取响应头
print(response.headers)
请求内容(返回的真正有用的数据)
response.content - 二进制类型的数据(图片、视频、音频等, 例如:图片下载)
response.text - 字符串类型的数据(网页)
response.json() - 对请求内容做完json解析后的数据(json数据接口)
print(response.text)
二、前端开发
1.前端开发 - 写各种互联网产品界面(电脑端应用程序除外)
前端开发相关技术:html css js(原生js jQuery Vue React)
html - 负责网页内容
css - 负责网页内容的样式和布局
js - 负责网页内容的变化
三、html
1.不同的标签可以提供不同的内容
1.标签语法结构是固定的(important)
a.双标签:<标签名 属性名1=属性值1 属性名2=属性值2…>标签内容</标签名>
b.单标签:<标签名 属性名1=属性值1 属性名2=属性值2…> 或者 <标签名 属性名1=属性值1 属性名2=属性值2…/>
src 提供图片内容
href 超链接
div 规范网页结构
2.css负责网页内容样式,->更好看
css语法:
选择器{属性名1:属性值1;属性名2:属性值2;…}
style标签可以写css
选择器的作用就是选中需要添加样式的标签
css选择器
1.元素选择器(标签选中) - 将标签作为选择器,选中所有指定的标签
p{} - 选中所有的p标签
2.id选择器 - 在id属性值前面加#作为一个选择器,选中id属性值为指定值得标签
每一个可见的标签都可以设置id属性,并且一个页面中,同一个id值只有一个标签
#p1 - 选中id属性值为p1的标签
3.class选择器 - 在class属性值前加.作为一个选择器,选择class属性值为指定值的标签
不同的标签可以有相同的class值;同一个标签可以有不同的class值
.c1 - 获取class值为c1的所有标签
p.c1 - 获取class值为c1的所有p标签
.c1.c2 - 获取class值为c1、c2的所有标签 class=‘c1 c2 c3’
4.群组选择器 - 将多个选择器用,逗号隔开作为一个选择器
p,a{} - 选择所有的p标签和所有的a标签
#p1,.c1,p{} - 选择id p1,class c1,的p标签
5.子代选择器 - 多个选择器之间用大于符号隔开作为一个选择器
div>p{}
6.后代选择器 - 多个选择器用空格隔开作为一个选择器
div p{}