HTML语言简介——Python爬虫学习须知

1 网页开发

1.1 web开发的三把利器

  • HTML:设计网页框架
  • CSS:优化页面
  • JavaScript:让网页具有交互性
    对于爬虫而言,只需了解HTML即可。

2 HTML元素和标签

<html>
	<head>
		<title>我的第一次</title>
	</head>
	<body>
		Hello girl
	</body>
</html>

2.1 HTML的标签

  • 如上所示,这是一个最简单的HTML代码,所有夹在<>中间的字母,它们都称之为标签
  • 一般来讲,标签都是成对出现的,所以标签又分为开始标签(例如< title >)和结束标签(例如< /title >)
  • 开始标签和结束标签的区别仅仅只是结束标签多了一个/
  • 自闭合标签和非自闭合标签:
<title>我的第一次</title> 非自闭和
<meta charset='utf-8'/> 自闭和
  • 部分自闭合元素与非自闭合元素:
自闭合	非自闭合
img		h1
video	h2
meta	p
		a
		div

2.2 HTML元素

  • 开始标签,结束标签,加上标签中间的内容就构成了元素
  • html、head、title、body这四个元素是每个HTML文档都会有的元素
  • 标签是可以嵌套的,例如上上图,而所有元素都包含在< html >元素里,所以< html >元素也叫根元素
  • < head >元素里的内容是网页头
<head>
	<meta charset='utf-8'/>
	<title>我的第一次</title>
	<link rel='stylesheet' href='style.css'/>
	<script src='script.js'></script>
</head>
  • < body >元素里的内容是网页体也就是存放网页内容的地方
  • HTML常见元素:
    < h1 >,< h2 >,< p >,< a >,< img >,< div >,对于爬虫学习而言,只需重点关注< a >标签和< img >标签

3 属性

  • HTML元素可以通过设置属性来为元素提供更多信息
  • 属性的语法是:属性名=‘属性值’
  • < a >元素是我们常见的超链接,其中href属性中存储的就是跳转网页的地址,被标签包裹的内容是网页中展示给我们看的实际内容
<a href='https://www.baidu.com'>百度</a>
  • < img >元素是自闭合元素,它是图片元素,网页上面呈现的各种图片就是使用了< img >元素,< img >元素有个src属性,里面存储了图片的地址,这样浏览器能将图片展示在网页上。
<img src='cat.jpg'/>
  • id和class:
    id是唯一标识,其值在整个网页里是唯一的
    class是一类标识,其值可以用在同一类所有的元素中
    简单来讲,可以将id理解成学号,class理解成班级
<body>
	<button id='login'>登录</button>
	<p class='movie-name'>肖生克的救赎</p>
	<p class='movie-name'>霸王别姬</p>
	<p class='movie-name'>阿甘正传</p>
	<p class='movie-name'>这个杀手不太冷</p>
</body>
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值