基础爬虫与xpath

最新推荐文章于 2022-11-19 10:21:01 发布

小白冲啊

最新推荐文章于 2022-11-19 10:21:01 发布

阅读量95

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_41797985/article/details/111289181

版权

笔记专栏收录该内容

45 篇文章 5 订阅

订阅专栏

1.基础爬虫

import request
#请求头信息
headers={'User-Agent':''}
#代码向服务器发送get请求，get是发送请求的方式，post
response=request.get(url='',headers=headers)
#将内容写入文件
with open('') as f:
	f.write(response.content)

2.Xpath的基本使用

简介：Xpath是一门在XML文档中查找信息的语言，使用路径表达式来选取XML文档中的节点或者节点集，速度较快，是爬虫在网页定位中的较优选择，但很多网页前端代码混乱难以定位。

安装库：开始菜单输入cmd -> 打开命令框 ->输入：

pip install lxml

文档：https://docs.microsoft.com/zh-cn/previous-versions/dotnet/netframework-2.0/ms256471(v%3dvs.80)

基础用法及实例：

#
'''
表达式	      描述
nodename	选取此节点的所有子节点。
/	        从根节点选取。 或是元素和元素间的过渡。
//	        从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。或是跨节点选取子节点
.	        选取当前节点。
..	        选取当前节点的父节点。
@	        选取属性。
'''

# 导入模块
from lxml import etree

data_str = """
        <div>
            <ul>
                 <li class="item-0">
                     <a href="link1.html">
                         first item
                     </a>
                 </li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a>
             </ul>
         </div>
        """
html = etree.HTML(data_str)

# html.xpath('//div/ul/li[@class="item-0"]/a/text()')#找文本值
html.xpath('//div//li[@class="item-0"]/a/@href') # 属性值

小白冲啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基础爬虫与xpath

1.基础爬虫import request#请求头信息headers={'User-Agent':''}#代码向服务器发送get请求，get是发送请求的方式，postresponse=request.get(url='',headers=headers)#将内容写入文件with open('') as f: f.write(response.content)2.Xpath的基本使用简介：Xpath是一门在XML文档中查找信息的语言，使用路径表达式来选取XML文档中的节点或者节点集，速度较
复制链接

扫一扫