利用Python和Beautiful Soup抓取网页内容

利用Python和Beautiful Soup抓取网页内容 - SamWei - 博客园

利用Python和Beautiful Soup抓取网页内容
Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑 收藏

      Python 3中提供了url打开模块urllib.request和HTML的解析模块html.parser模块。但是html.parser模块的功能比较简单,很难满足现今解析网页内容的需求。Beautiful Soup 4是一个功能非常强大的HTML和XML文件解析Python库。而且它提供了非常完善的文档(http://www.crummy.com/software/BeautifulSoup/bs4/doc/)。

Beautiful Soup 4的安装及相关问题

      Beautiful Soup的最新版本是4.1.1可以在此获取(http://www.crummy.com/software/BeautifulSoup/bs4/download/)。我使用的是Mac OSX,在这个平台上安装Beautiful Soup,只需解压安装包并运行setup.py文件即可:

$ python3 setup.py install

      安装过程中如果得到SyntaxError “Invalid syntax” on the line ROOT_TAG_NAME = u'[document]',需要将Python 2的代码转化成Python 3:

$ 2to3-3.2 -w bs4

URL中的中文编码问题

      在URL中经常会见到包含中文的情况,如下面这个在去哪儿网上搜索2012-08-09日从北京到丽江的机票的URL:

http://flight.qunar.com/site/oneway_list.htm?searchDepartureAirport=北京&searchArrivalAirport=丽江&searchDepartureTime=2012-08-09

      如果直接将这个URL传给urllib.request.urlopen会导致TypeError。解决方法是构造一个参数名和参数值的元组,并利用urllib.parse.urlencode方法对其编码。示例代码如下:

1 url ='http://flight.qunar.com/site/oneway_list.htm'
2 values ={'searchDepartureAirport':'北京','searchArrivalAirport':'丽江','searchDepartureTime':'2012-07-25'}
3 encoded_param = urllib.parse.urlencode(values)
4 full_url = url +'?'+ encoded_param

网页内容抓取:下面的示例代码展示了如何抓取百度搜索关键字“网球”时的网页内容。
复制代码

 1 import urllib.parse
 2 import urllib.request
 3 from bs4 import BeautifulSoup
 4
 5 url ='http://www.baidu.com/s'
 6 values ={'wd':'网球'}
 7 encoded_param = urllib.parse.urlencode(values)
 8 full_url = url +'?'+ encoded_param
 9 response = urllib.request.urlopen(full_url)
10 soup =BeautifulSoup(response)
11 soup.find_all('a')

复制代码
标签: python, BeautifulSoup, Web-Scraping
posted on 2012-12-12 16:38  lexus 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2012/12/12/2814913.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值