爬虫_requests_html

安装

pip install requests_html

基本使用

# 导入
from requests_html import HTMLSession,HTML

# 生成会话
session = HTMLSession()

# 设置头部
headers={
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}

# 请求
url = "https://www.baidu.com"
response = session.get(url=url,headers=headers)

# post请求
session.post('http://httpbin.org/post', data={'name': 'zzz', 'passwd': 123})

# 页面内容
response.html.html

# 所有连接
# 相对
for _ in response.html.links:
    print(_)
# 绝对
for _ in response.html.absolute_links:
    print(_)

# css选择器
response.html.find('#some a',first=True,_encoding='utf-8', clean=false) # clean忽略style,script

# xpath选择器
response.html.xpath('//[@id="some"]/a')

# 文本
ele.text

# html
ele.html

# 元素属性
ele.attrs.get('id')

# 连接属性
e.links  # 相对路径
e.absolute_links # 绝对路径

生成html

doc = """
    <!DOCTYPE html>
    <html>
        hello
    </html>
"""
html = HTML(html=doc)

script支持

res = session.get('http://python-requests.org/')
res.html.render()
# retries:失败次数; 
# wait:加载前等待时间; 
# scrolldown:下滚次数;
# sleep:初次渲染后等待时间;
# reload:是否浏览器加载
# keep_page:是否允许rp.html.page访问页面

script ='''
    console.log('script')
'''
html.render(script=script)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值