基础爬虫与xpath

1.基础爬虫

import request
#请求头信息
headers={'User-Agent':''}
#代码向服务器发送get请求,get是发送请求的方式,post
response=request.get(url='',headers=headers)
#将内容写入文件
with open('') as f:
	f.write(response.content)

2.Xpath的基本使用

简介:Xpath是一门在XML文档中查找信息的语言,使用路径表达式来选取XML文档中的节点或者节点集,速度较快,是爬虫在网页定位中的较优选择,但很多网页前端代码混乱难以定位。

安装库:开始菜单输入cmd -> 打开命令框 ->输入 :

pip install lxml

文档:https://docs.microsoft.com/zh-cn/previous-versions/dotnet/netframework-2.0/ms256471(v%3dvs.80)

基础用法及实例:

#
'''
表达式	      描述
nodename	选取此节点的所有子节点。
/	        从根节点选取。 或是元素和元素间的过渡。
//	        从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。或是跨节点选取子节点
.	        选取当前节点。
..	        选取当前节点的父节点。
@	        选取属性。
'''

# 导入模块
from lxml import etree

data_str = """
        <div>
            <ul>
                 <li class="item-0">
                     <a href="link1.html">
                         first item
                     </a>
                 </li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a>
             </ul>
         </div>
        """
html = etree.HTML(data_str)

# html.xpath('//div/ul/li[@class="item-0"]/a/text()')#找文本值
html.xpath('//div//li[@class="item-0"]/a/@href') # 属性值
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值