明日外星人·Python网络爬虫从入门到实践笔记chap1&chap2(初识网络爬虫|了解Web前端)

1 初识网络爬虫

1.1 分类

  • 通用网络爬虫
  • 聚焦网络爬虫
  • 增量式网络爬虫
  • 深层网络爬虫

1.2 基本原理

  1. 获取初识URL
  2. 爬取页面获取新的URL
  3. 将新的URL放到URL队列中
  4. 读取新的URL下载网页
  5. 重复上述爬取过程(2、3、4)直到满足停止条件

1.3 环境搭建

  1. Anaconda(Python3)
  2. Pycharm

2 了解Web前端

HTML 定义网页的内容
CSS 描述网页的样式
JavaScript 描述网页的行为

2.1 HTTP基本原理

HTTP:超文本传输协议
建立链接-请求-应答-关闭连接

常用请求方式

GET:指定页面
POST:提交数据、处理请求
HEAD:获取报文头部信息
PUT:传送数据,替代文档内容
DELETE:请求服务器删除指定页面
OPTION:允许客户端查看服务器内容

HTTP状态码及其含义

1** 信息
2** 成功
3** 重定向
4** 客户端错误
5** 服务器错误

2.2 HTML语言

结构

文档类型

<!DOCTYPE html>

根标签

<html lang="en">

头标签

<head>
	<meta charset="UTF-8">
	<title>在网页中插入图片</title>
</head>

主体标签

<body>
<img src="mr.png" width="400" height="400">
</body>

HTML的基本标签

  1. 文件开始标签html
  2. 文件头部标签head
  3. 文件标题标签title
  4. 元信息标签meta
  5. 页面主体标签body
body标签的属性及其描述
属性描述
text设定页面文字的颜色
bgcolor设定页面背景的颜色
background设定页面背景的图像
bgproperties设定页面背景的图像为固定,不随页面的滚动而滚动
link设定页面默认的连接颜色
alink设定鼠标正在点击时的连接颜色
vlink设定访问过后的连接颜色
topmargin设定页面的上边距
leftmargin设定页面的左边距

2.3 CSS层叠样式表

属性选择器

p标签

[att=val]{}

类和ID选择器

	#intro{color}   <!---ID选择器 只能定义一个--->
	.intro{color}   <!---类选择器 需要用class属性来声明--->

2.4 JavaScript动态脚本语言

在页面中直接链接JavaScript代码

<script>···</script>

属性值:

属性值说明
language设置所使用的脚本语言及版本
src设置一个外部脚本文件的路径位置
type设置所使用的脚本语言,此属性已代替language语言
defer当HTML文档加载完毕后再执行脚本语言

链接外部JavaScript文件

<script language="javascript" src="your-Javascript.js">···</script>
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值