Pyf20230401(Python 反爬与Xpath)

01 requests自动登陆

import requests

requests自动登陆步骤
第一步:人工对需要自动登陆的网页先登陆
第二步:获取对应网页的cookie信息
第三步:发送请求的时候在请求头中添加cookie值

headers = {
    'cookie': r'',
    'user-agent': r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36'
}

response = requests.get(r'https://www.zhihu.com/', headers=headers)
print(response.text)

02 seleniumGetCookie

from selenium.webdriver import Chrome

1.创建浏览器打开需要自动登陆的网页

b = Chrome()
b.get('http://www.taobao.com/')

2.留足够长的时间,人工完成登陆(必须得保证b指向的窗口的网页中能看到登录以后的信息)

input('是否已经完成登陆?任意键回车表示已完成:')

3.获取登录成功后的cookie信息,保存到本地文件

cookies = b.get_cookies()
# print(cookies)
with open('files/taobaoCookies.txt', 'w', encoding='utf-8') as f:
    f.write(str(cookies))

03 seleniumUseCookie

from selenium.webdriver import Chrome

1.创建浏览器打开需要自动登录的网页

b = Chrome()
b.get('https://www.taobao.com/')

2.添加cookie(或 获取本地保存的cookie)

with open('files/taobaoCookies.txt') as f:
    cookies = eval(f.read())

3.添加cookie

for c in cookies:
    b.add_cookie(c)

4.重新打开网页

b.get('https://www.taobao.com/')

input('按任意键结束网页:')

04 requests使用代理IP

import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
# 设置IP代理
proxies = {
    'https': 'xxx.xxx.xxx.xxx:xxxx'
}
res = requests.get('https://movie.douban.com/top250?start=0&filter=', headers=headers, proxies=proxies)
print(res.text)

05 selenium使用代理IP

from selenium.webdriver import Chrome, ChromeOptions

# 设置IP代理
options = ChromeOptions()
options.add_argument('--proxy-server=http://xxx.xxx.xxx.xxx:xxxx')
# 获取页面
b = Chrome(options=options)
b.get('https://movie.douban.com/top250?start=0&filter=')

input('按任意键结束:')

06 Xpath

import json
import xml

Xpath是用来解析网页数据或xml数据的一种解析方法,它是通过路径来获取标签(元素)。

Python数据:{‘name’: ‘xiaoming’, ‘age’ : 18, ‘is_ad’: True, ‘car_no’: None}
Json数据:{“name”: “xiaoming”, “age”: 18, “is_ad”: true, “car_no”: null}
xml数据:
xiaoming
18
<is_ad>是</is_ad>
<car_no></car_no>

‘’’

1.常见的几个概念

1)树:整个网页结构和xml结构就是一个树结构
2)元素(节点):html树结构的每个标签
3)根节点:树结构中的第一个节点
4)内容:标签内容
5)属性:标签属性

2.Xpath语法

2.1 获取标签

1)绝对路径:以’/‘开头,然后从根节点开始层层往下写路径
2)相对路径:写路径的时候用’.‘或者’…‘开头,其中’.‘表示当前节点;’…‘表示当前节点的父节点。
注意:如果路径以’.开头,‘./‘可以省略
3)全路径:以’//‘开头的路径
2.2 获取标签内容:在获取标签的路径的最后加’/text()’
2.3 获取标签属性:在获取标签的路径的最后加"/@属性名"

3.Xpath应用

from lxml import etree
3.1 根据数据创建树结构,获取根节点
html = open('files/data.html', encoding='utf-8').read()
root = etree.HTML(html)

=绝对路径=

3.2 获取标签

节点对象.xpath(路径) - 根据获取所有的标签,返回值是列表,列表中的元素是节点对象

print('获取标签----------------------------------------')
result = root.xpath('/html/body/div/a')
print(result)
3.2.1 绝对路径的写法跟xpath前面用谁去点的无关
div = root.xpath('/html/body/div')[0]
print(div)
result = div.xpath('/html/body/div/a/text()')
print(result)
3.3 获取标签内容
print('获取标签内容----------------------------------------')
result = root.xpath('/html/body/div/a/text()')
print(result)
3.4 获取标签属性
print('获取标签属性----------------------------------------')
result = root.xpath('/html/body/div/a/@href')
print(result, '\n')

=相对路径=

result = root.xpath('./body/div/a/text()')
print(result)
result = div.xpath('a/text()')
print(result, '\n')

=全路径=

print('==================全路径==================')
result = root.xpath('//a/text()')
print(result)
result = root.xpath('//div/a/text()')
print(result)

4.加谓语(加条件)

4.1 位置相关谓语:路径中的节点[]

[N] - 第N个指定标签
[last()] - 最后一个标签
[last()-N]
[position()<=N 或 position()>N]

print('==================加谓语==================')
result = root.xpath('//span/p[2]/text()')
print(result)
result = root.xpath('//span/p[last()]/text()')
print(result)
result = root.xpath('//span/p[position()<=2]/text()')
print(result)
result = root.xpath('//span/p[position()>2]/text()')
print(result, '\n')
4.2 属性相关谓语

[@属性名=属性值]

print('==================属性相关谓语==================')
result = root.xpath('//span/p[@id="p1"]/text()')
print(result)
result = root.xpath('//span/p[@class="c4"]/text()')
print(result)
result = root.xpath('//span/p[@data="5"]/text()')
print(result, '\n')

5.通配符

在xpath中可以通过*来表示任意标签或者任意属性

print('==================通配符==================')
result = root.xpath('//span/*/text()')
print(result)
result = root.xpath('//span/p[@class="c1"]/text()')
print(result)
result = root.xpath('//span/*[@class="c1"]/text()')
print(result)
print('获取标签属性值----------------------------------------')
result = root.xpath('//span/span/@data')
print(result)
result = root.xpath('//span/span/@*')
print(result)
print('获取标签属性class为c1的全部标签内容------------------------------')
result = root.xpath('//*[@class="c1"]/text()')
print(result)

Xpath作业

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值