xpath在python中的使用

个人认为xpath是python中最好用的爬虫工具

  1. 获取所有的tr标签
  2. 获取所有class=para的div标签
  3. 获取a标签中的href链接``
  4. 获取标签中的纯文本信息

html代码

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		<title></title>
	</head>
	<body>
		<tr>
			<td><a href="http://www.baidu.com">百度</a></td>
			<td><a href="https://www.360.cn/">360</a></td>
			<td><a href="https://www.iqiyi.com/">爱奇艺</a></td>
			<td><a href="https://www.qq.com/">腾讯</a></td>
			<td><a href="https://www.huawei.com/cn/?ic_medium=direct&ic_source=surlent">华为</a></td>
		</tr>
		<div id="para">
			<div id="parse">
				<p>你好,HTML。你将改变世界</p>
				<p>你好,python,你将改变世界</p>
			</div>
			<div id="parse">
				<ul>
					<li><a href="http://www.baidu.com">百度</a></li>
					<li><a href="http://www.360.com/">360</a></li>
					<li><a href="http://www.qq.com">腾讯</a></li>
				</ul>
			</div>
			
		</div>
		<div id="para">
			<a href="https://www.qq.com/">腾讯</a>
			<a href="https://www.iqiyi.com/">爱奇艺</a>
			<a href="https://www.huawei.com/cn/?ic_medium=direct&ic_source=surlent">华为</a>
		</div>
		<div id="para">
			
		</div>
	</body>
</html>

import requests
from lxml import etree
//lxml需要下载(pip install lxml)
url = "xxxxxx"
header={"user-ange":"xxxxxx"}
text = requests.get(url, headers=header).text
html = etree.HTML(text)
#获取到网页中的html

获取所有tr标签

trs = html.xpath("//tr")
#返回一个列表
for tr in trs:
	print(tr)
	print(etree.toString(tr, encoding="utf-8").decode("utf-8"))#将tr转换为utf-8,也就是能看懂的形式

获取所有class=para的div标签

divs = html.xpath("//div[@class='para']")
for div in divs:
	print(div)

获取a标签中的href

/a/@href 是获取href , /a[@href=‘xxx’] 是获取href为xxx的a标签
href可以获得图片、视频等资源的链接,可进行下载资源分析资源

hrefs = html.xpath("//a/@href")
for href in hrefs:
	print(href)

获取所有纯文本信息

divs= html.xpath("//div[position()>3]")
#position()>3,position是起到过滤作用,是指选取所获得的div列表中下标大于3的div
for div in divs:
	text= div.xpath(".//a/text()")	# . 是指在该div下进行信息提取
	print(text) 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值