1 网页开发
1.1 web开发的三把利器
- HTML:设计网页框架
- CSS:优化页面
- JavaScript:让网页具有交互性
对于爬虫而言,只需了解HTML即可。
2 HTML元素和标签
<html>
<head>
<title>我的第一次</title>
</head>
<body>
Hello girl
</body>
</html>
2.1 HTML的标签
- 如上所示,这是一个最简单的HTML代码,所有夹在<>中间的字母,它们都称之为标签
- 一般来讲,标签都是成对出现的,所以标签又分为开始标签(例如< title >)和结束标签(例如< /title >)
- 开始标签和结束标签的区别仅仅只是结束标签多了一个/
- 自闭合标签和非自闭合标签:
<title>我的第一次</title> 非自闭和
<meta charset='utf-8'/> 自闭和
自闭合 非自闭合
img h1
video h2
meta p
a
div
2.2 HTML元素
- 开始标签,结束标签,加上标签中间的内容就构成了元素
- html、head、title、body这四个元素是每个HTML文档都会有的元素
- 标签是可以嵌套的,例如上上图,而所有元素都包含在< html >元素里,所以< html >元素也叫根元素
- < head >元素里的内容是网页头
<head>
<meta charset='utf-8'/>
<title>我的第一次</title>
<link rel='stylesheet' href='style.css'/>
<script src='script.js'></script>
</head>
- < body >元素里的内容是网页体也就是存放网页内容的地方
- HTML常见元素:
< h1 >,< h2 >,< p >,< a >,< img >,< div >,对于爬虫学习而言,只需重点关注< a >标签和< img >标签
3 属性
- HTML元素可以通过设置属性来为元素提供更多信息
- 属性的语法是:属性名=‘属性值’
- < a >元素是我们常见的超链接,其中href属性中存储的就是跳转网页的地址,被标签包裹的内容是网页中展示给我们看的实际内容
<a href='https://www.baidu.com'>百度</a>
- < img >元素是自闭合元素,它是图片元素,网页上面呈现的各种图片就是使用了< img >元素,< img >元素有个src属性,里面存储了图片的地址,这样浏览器能将图片展示在网页上。
<img src='cat.jpg'/>
- id和class:
id是唯一标识,其值在整个网页里是唯一的
class是一类标识,其值可以用在同一类所有的元素中
简单来讲,可以将id理解成学号,class理解成班级
<body>
<button id='login'>登录</button>
<p class='movie-name'>肖生克的救赎</p>
<p class='movie-name'>霸王别姬</p>
<p class='movie-name'>阿甘正传</p>
<p class='movie-name'>这个杀手不太冷</p>
</body>