第十一章 从Web抓取信息 笔记

webbrowser
     用浏览器打开网址,这是它唯一能做的事,webbrowser.open()
requests模块
     用来从web下载,功能和urllib2差不多
     requests.get()下载网页,返回一个Response对象
     要保存内容到本地,要用“写二进制”模式打开文件,即,向open()方法传入wb参数而非w
在for循环中调用Response对象的iter_content()方法,参数是包含字节的数据,每次迭代中调用
write将内容写入本地文件

BeautifulSoup模块
     用来解析HTML文件,比正则好用
  1. 创建BeautifulSoup对象,用bs4.BeautifulSoup()方法,参数是要解析的HTML的字符串,
  2. 也可以向bs4.BeautifulSoup()传入一个本地的HTML文件
  3. select()方法寻找
  4. select()方法返回一个Tag对象,Tag有attrs属性和getText()属性
  5. 对Tag对象用get()方法可以得到属性的值,参数是属性的名称

selenium模块
     可以用于模拟浏览器操作,导入要用from selenium import webdriver,首先创建browser对象,用webdriver.Firefox()打开火狐浏览器,browser.get()打开一个网址
用这些方法来查找WebElement,WebElement的click()方法模拟点击该元素,send_keys()方法模拟输入

还有四种浏览器按钮,返回,刷新,前进,关闭窗口,分别用browse.back/forward/refresh/quit
更多用法参见文档 http://selenium-python.readthedocs.org/
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值