爬虫(3)——XPath学习

目录

1.HTML网页基础

 2. 安装XPath

2.1 pip install lxml

2.2 PyCharm

3.  XPath基本语法

4. 一键教你学会使用XPath


XPath是一种在XML文档中查找信息的语言,可以使用它在HTML源代码文档中通过元素、属性等方式进行查找和提取数据。

1.HTML网页基础

HTML是用来描述网页的一种语言,其全称为Hyper Text Markup Language(超文本标记语言),这里首先要声明一点,HTML不是一种编程语言,而是一种标记语言。

我们打开百度浏览器认识一下网页结构:

 可以看到内容是非常多的,毕竟百度浏览器是非常强大的。下面让我们简单了解一下基本结构:

在PyCharm中新建一个html文件:

<!DOCTYPE html> #声明为HTML文档
<html lang="en"> #根元素
<head> #文档数据存储,一般不会显示在网页上(不可见)
    <meta charset="UTF-8"> #声明网页编码格式
    <title>Title</title> #文档标题
</head>
<body>
#定义页面可见内容
</body>
</html>

当我在

<body>
#定义页面可见内容
</body>

添加一些内容时

例如:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>WHJ226</title>
</head>
<body>
<h1>PYTHON入门</h1>
<table border="1">
    <tr>
        <th>表头 1</th>
        <th>表头 2</th>
    </tr>
    <tr>
        <td>第一行第一列存放的数据</td>
        <td>第一行第二列存放的数据</td>
    </tr>
  
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值