Day5登录反扒和Xpath解析

本文介绍了使用requests和selenium库进行网页自动登录的方法,包括获取和使用cookie。同时,讲解了如何设置代理IP以避免被目标网站识别。此外,详细阐述了XPath这一XML和HTML数据解析工具,包括其基本概念和常用语法,如获取标签、内容和属性等。
摘要由CSDN通过智能技术生成

登录反扒和Xpath解析

一.requests的自动登录问题

requests自动登录步骤

  1. 第一步:人工对需要自动登录网页进行登录
  2. 第二步:获取这个网站登录后的cookie信息
  3. 第三步:发送请求的时候在请求头中添加cookie值
import requests
headers = {
    'cookie': ''
}
response = requests.get('https://www.zhihu.com/', headers=headers)


print(response.text)

二.selenium自动登录反爬

  1. selenium怎么获取登录后的cookie
  • 第一步创建浏览器打开需要自动登录的网页
  • 第二步留足够长的时候,人工完成登录(必须得保证b指向的窗口的网页中能看到登录以后的信息)
  • 第三步获取登录成功后的cookie信息,保存到本地文件
from selenium.webdriver import Chrome
b=Chrome()
b.get('https://www.taobao.com')
input('是否已经完成登录:')  # 给手动登录留足够的时间
result = b.get_cookies()
with open('files/taobao.txt','w',encoding='utf-8') as f:
    f.write(str(result))
  1. selenium使用登录后的cookie
from selenium.webdriver import Chrome
# 1.创建浏览器打开需要自动登录的网页
b=Chrome()
b.get('https://www.taobao.com')
# 2.获取本地保存的cookie
with open('files/taobao.txt',encoding='utf-8') as f:
    result = eval(f.read())
# 3.添加cookie
for x in result:
    b.add_cookie(x)
# 4.重新打开网页
b.get('https://www.taobao.com')

三.requests代理ip的设置

import requests

headers = {
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
    }

# 创建代理ip
proxies={
    'https':'49.87.140.113:4525'
}
# 使用代理ip发送请求
res = requests.get('https://movie.douban.com/top250?start=0&filter=', headers=headers,proxies=proxies)
print(res.text)

四.selenium代理ip的设置

from selenium.webdriver import Chrome,ChromeOptions
options = ChromeOptions()
# 设置代理
options.add_argument('--proxy-server=http://49.87.140.113:4525')

b=Chrome(options=options)
b.get('https://movie.douban.com/top250?start=0&filter=')

五.xpath

xpath用来解析网页数据或者xml数据的一种解析方法,它是通过路径来获取标签(元素)。
Python数据:{‘name’: ‘xiaoming’, ‘age’: 18, ‘is_ad’: True, ‘car_no’: None}

Json数据:{“name”: “xiaoming”, “age”: 18, “is_ad”: true, “car_no”: null}

xml数据:


xiaoming
18
<is_ad>是</is_ad>
<car_no></car_no>


xiaoming
18
<is_ad>是</is_ad>
<car_no></car_no>

  1. 常见的几个概念
  • 树:整个网页结构和xml结构就是一个树结构
  • 元素(节点):html树结构的每个标签
  • 根节点:树结构中的第一个节点
  • 内容:标签内容
  • 属性:标签属性
  1. Xpath语法
  • 获取标签
    • 绝对路径: 以’/'开头,然后从根节点开始层层往下写路径
    • 相对路径: 写路径的时候用’.‘或者’…‘开头,其中’.‘表示当前节点;’…‘表示当前节点的父节点。
      注意:如果路径以’./‘开头,’./'可以省略
    • 全路径: 以’//'开头的路径
  • 获取标签内容:在获取标签的路径的最后加’/text()’
  • 获取标签属性:在获取标签的路径的最后加’/@属性名’
from lxml import etree
# 1.创建树结构,获取根节点
html = open('data.html', encoding='utf-8').read()
root = etree.HTML(html)
# 2.通过路径获取标签
# 节点对象.xpath(路径)  -  根据获取所有的标签,返回值是列表,列表中的元素是节点对象
# 1)绝对路径
result = root.xpath('/html/body/div/a')
print(result)        
# 获取标签内容
result = root.xpath('/html/body/div/a/text()')
print(result)           # ['我是超链接2', '我是超链接4']
# 获取标签属性
result = root.xpath('/html/body/div/a/@href')
print(result)

注意:绝对路径的写法跟xpath前面用谁去点的无关

div = root.xpath('/html/body/div')[0]

result = div.xpath('/html/body/div/a/text()')
print(result)      # ['我是超链接2', '我是超链接4']

相对路径

result = root.xpath('./body/div/a/text()')
print(result)

result = div.xpath('./a/text()')
print(result)

result = div.xpath('a/text()')
print(result)

全路径

result = root.xpath('//a/text()')
print(result)

result = div.xpath('//a/text()')
print(result)

result = root.xpath('//div/a/text()')
print(result)
  1. 加谓语(加条件) - 路径中的节点[]
  • 位置相关谓语
    • [N] - 第N个指定标签(N从1开始)

    • [last()] - 最后一个指定标签

    • [last()-N] - 倒数N+1的指定标签

    • [position()>N]、[position()>=N]、[position()<N]、[position()<=N] 小于等于N的前面的标签的或者大于等于N的后几个标签

result = root.xpath('//span/p[2]/text()')
print(result)
    
result = root.xpath('//span/p[last()]/text()')
print(result)
    
result = root.xpath('//span/p[position()<=2]/text()')
print(result)
    
result = root.xpath('//span/p[position()>2]/text()')
print(result)
    
result = root.xpath('//span/p[last()-1]/text()')
print(result)
  • 属性相关谓语
    [@属性名=属性值] 指定的属性名=属性值的标签
result = root.xpath('//span/p[@id="p1"]/text()')
print(result)

result = root.xpath('//span/p[@class="c1"]/text()')
print(result)

result = root.xpath('//span/p[@data="5"]/text()')
print(result)
  • 通配符

在xpath中可以通过*来表示任意标签或者任意属性

result = root.xpath('//span/*/text()')
print(result)

result = root.xpath('//span/p[@class="c1"]/text()')
print(result)

result = root.xpath('//span/*[@class="c1"]/text()')
print(result)


result = root.xpath('//span/span/@*')
print(result)

result = root.xpath('//*[@class="c1"]/text()')
print(result)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值