Python Linux中用火狐无头浏览器爬取网页内容

最新推荐文章于 2024-07-16 11:04:39 发布

我不是忘尘

最新推荐文章于 2024-07-16 11:04:39 发布

阅读量976

点赞数

分类专栏： Python 文章标签： firefox linux selenium

本文链接：https://blog.csdn.net/qq_39664250/article/details/107251226

版权

Python 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

需要的包：

pip install selenium
pip install lxml
pip install bs4

本来一开始想用谷歌无头浏览器的，结果运行的时候一堆bug，换成火狐之后一下子就好了
安装firefox:

yum install firefox

驱动下载地址

https://github.com/mozilla/geckodriver

解压后我放在了/usr/bin下，放这似乎不用指定路径，同时为其添加可执行属性

from selenium import webdriver
from bs4 import BeautifulSoup 
options = webdriver.FirefoxOptions()
options.add_argument('-headless')

# 不指定路径
browser = webdriver.Firefox(options=options)
# 指定路径，如果用上一句不行的话就用下面的指定下路径
# browser = webdriver.Firefox(executable_path="/usr/bin/geckodriver",options=options)

browser.get("http://www.chinapeace.org.cn/gupiao/")
content = browser.page_source
soup = BeautifulSoup(content,'lxml')
a_docs = soup.find_all('a')
file = open('html.html','a')
for a_doc in a_docs:
    print a_doc
    print a_doc.get('href')
    print a_doc.string
    file.write(a_doc.encode('utf-8'))

在这里插入图片描述

我不是忘尘

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python Linux中用火狐无头浏览器爬取网页内容

需要的包：pip install seleniumpip install lxmlpip install bs4本来一开始想用谷歌无头浏览器的，结果运行的时候一堆bug，换成火狐之后一下子就好了安装firefox:yum install firefox驱动下载地址https://github.com/mozilla/geckodriver解压后我放在了/usr/bin下,同时为其添加可执行属性from selenium import webdriverfrom bs4 im
复制链接

扫一扫

专栏目录