python爬虫-HTML基础(简单实用)

html基础

概念

HTML(Hyper Text Markup Language)是用来描述网页的一种语言,也叫超文本标记语言。
HTML语言是一种标记语言,不需要编译,直接由浏览器执行
HTML文件是一个文本文件,包含了一些HTML元素, HTML文件是一个文本文件,包含了一些HTML元素,标签等.
HTML文件必须使用html或htm为文件名后缀
HTML是大小写不敏感的,HTML与html是一样的

组成:

1)标签和元素。
夹在尖括号<>中间的字母,它们叫做标签 ,标签通常是成对出现的。
开始标签+结束标签+中间的所有内容,它们在一起就组成了元素

2)网页头和网页体
网页头的内容不会被直接呈现在浏览器里的网页正文中,而网页体的内容是会直接显示在网页正文中的。

3)属性
style属性可以用来定义网页文本的样式,比如字体大小、颜色、间距、对齐方式等等。
HTML中,链接一般都由标签定义,href属性用于规定指向页面的URL。如:

<a href="https://wordpress-edu-3autumn.localprod.forc.work/">我是一个链接,点我试试</a>

head部分

Mate(Meta(metadata information)

提供有关页面的元信息,例:页面编码、刷新、跳转、针对搜索引擎和更新频度的描述和关键词

1、页面编码

<meta charset="UTF-8">  #指定编码类型为UTF-8

2、刷新和跳转

<meta http-equiv="refresh" content="5">  #指定每5秒刷新一次
<meta http-equiv="refresh" Content="1;Url=http://www.cnblogs.com/luotianshuai/" /> #指定1秒之后跳转页面至另一个网页

3、关键字
关键字的作用:一般是让爬虫之类的收录程序,当他们在爬你的网站的时候,如果你有关键字,那么他们会优先把关键字收录到他们的记录中,比如百度:如果他们收录之后,他们搜索你的关键字的时候,就能找到咱们的网站。

<meta name="keywords" content="helloWorld">

4、描述
例如下面的一个描述:

<meta name="description" content="helloWorld">

5、X-UA-Compatible
X-UA-Compatible 这个是IE8特有的,知道即可,因为做前端的同学都很害怕IE因为他们问题比较多各个版本问题很诡异,当IE8的时候微软想把各个版本的统一,那么这个参数就出现了,他为了向下兼容,如下的代码如果使用IE8的时候他会以IE7的模式运行。

<meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7" />
Title

网页头部信息
如:加上

<title>test1</title>
Link

网页头部图标
如加上:

<link rel="shortcut icon" href="favicon.ico">   #href是图片的路径+名字
Style

1、在当前文件中写Css样式
2、在其他文件中写Css样式类似python的模块导入的方式把Css样式导入到当前文件中使用

Script

1、在当前文件中写JS
2、在其他文件中写JS类似python的模块导入的方式把JS导入到当前文件中使用

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值