想与大家分享一个网页解析的方法。
我尝试过多种方法来解析百度搜索结果,比如pyquery, lxml, beautifulsoup等,今天发现,这些方法都不太好, 如果baidu把页面结构变化一下,可能就不起作用了。 这些页面解析库使用起来也挺麻烦。
我今天借鉴了网上的写法,觉得这个idea很不错。 我们可以用正则先把所有的链接找出来,
然后筛选掉不合乎标准的链接。下面是我的代码,
可以提取前100个或者前10个百度搜索结果。 您也可以在下面的链接中下载源代码。
http://www.ueseo.org/download/python/BaiduResult.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
百度关键词排名
By Jibo He @ ueseo.org
hejibo@ueseo.org
26 Oct, 2011
我尝试过多种方法来解析百度搜索结果,比如pyquery, lxml, beautifulsoup等,今天发现,这些方法都不太好, 如果baidu把页面结构变化一下,可能就不起作用了。 这些页面解析库使用起来也挺麻烦。
我今天借鉴了网上的写法,觉得这个idea很不错。 我们可以用正则先把所有的链接找出来,
http://www.ueseo.org/download/
#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
百度关键词排名
By Jibo He @ ueseo.org
hejibo@ueseo.org
26 Oct, 2011