安装requests-html,requests-html的安装与使用

本文介绍了如何利用requests-html库在Python中抓取并渲染简书首页。在安装过程中,由于Chromium下载慢的问题,需要从淘宝镜像源手动更新路径。遇到BrowserError错误可能是环境问题,尝试使用sudo apt-get install相关库来解决。

使用requests-html单一库完成简书首页获取(包含请求、解析、JavaScript渲染功能)

一:安装

sudo pip install requests-html

# -*- coding: utf-8 -*-

import requests_html

text_url = 'https://music.line.me/album/mb00000000012ac6c9'

user_agent = requests_html.user_agent()

print("User-Agent:",user_agent)

session = requests_html.HTMLSession()

headers = {

"User-Agent":user_agent

}

r = session.get(text_url,headers=headers)

r.html.render(sleep=1)

print(r.html.html)

r.html.render() 在初次使用该功能的时候会自动下载支持包:Chromium,但是由于国内网网络的原因,异常慢,基本失败,需要改写下载源,找到python3里的Pyppeteer的chromium_downloader.py里的下载路径,在http://npm.taobao.org/mirrors/chromium-browser-snapshots/Linux_x64/上面找最新的路劲写上,shell界面输入pyppeteer-install进行安装。

二、使用

更多使用以后在记录,本次着重把它跑通即可。

requeests_html报错pyppeteer.errors.BrowserError: Browser closed unexpectedly:解决办法

这个一般是环境问题,ubuntu运行以下代码试下

sudo apt-get install gconf-service libasound2 libatk1.0-0 libatk-bridge2.0-0 libc6 libcairo2 libcups2 libdbus-1-3 libexpat1 libfontconfig1 libgcc1 libgconf-2-4 libgdk-pixbuf2.0-0 libglib2.0-0 libgtk-3-0 libnspr4 libpango-1.0-0 libpangocairo-1.0-0 libstdc++6 libx11-6 libx11-xcb1 libxcb1 libxcomposite1 libxcursor1 libxdamage1 libxext6 libxfixes3 libxi6 libxrandr2 libxrender1 libxss1 libxtst6 ca-certificates fonts-liberation libappindicator1 libnss3 lsb-release xdg-utils wget

来源:https://www.cnblogs.com/lingwang3/p/13188582.html

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值