网络爬虫

网络爬虫(又被称为网页蜘蛛,网络 机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。常见的爬虫工具有:正则表达式、Selenuim、Beautifulsoup等。本例将利用selenium库做一个很简单的例子-爬区百度首页、输出标题、截屏保存、输出百度新闻栏。本实验在LUbuntu16.10上运行。
1.安装selenium库:

# pip install selenium

如果没有pip工具,可先安装apt install pip。另外安装selenium,pip需要的版本为9.0.1,所以对pip进行升级。
2.安装相应浏览器:
selenium库支持谷歌、Firefox、IE等。
3.例子代码如下:

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print (data)
driver.save_screenshot('baidu.png')
word = driver.find_element_by_id("u1") print word.text

4.运行程序:

# Python *.py

如果系统没有安装geckodriver,会报错:Geckodriver executable needs to be in PATH。这是因为geckodriver是一原生态的第三方浏览器,对于selenium3.x版本都会使用geckodriver来驱动firefox。Geckodirver的下载地址:https://github.com/mozilla/geckodriver/releases,根据系统选择相应的版本。解压完毕之后,可将geckodriver拷贝至/usr/bin下,或者在PATH环境变量中加入geckodriver的路径:
export PATH=/your geckodriver’s path:$PATH
重新执行即可。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值