利用BeautifulSoup爬取百度应用市场

BeautifulSoup是处理html的利器,没有比他更简洁的库了。

当前的应用场景是我要爬取百度应用市场的apk,假设我们已经搞到了一个apk的页面url:

http://shouji.baidu.com/software/24124341.html

可以按照如下的代码爬取

from bs4 import BeautifulSoup
resp = requests.get(url)
soup = BeautifulSoup(resp.text)

如果要获取该页面通向哪些其他apk的展示页面,可以

for link in soup.find_all('a'):
    sub_lnk = link.get('href')
	process(sub_lnk)

通过以上的使用,可以明显看出来,你可以用

soup.标签

来获取你感兴趣的标签所包含的内容,这是不是非常简单呢,相比于htmlparser之类的库,还要写一个自己的parser类,是不是更easy。

这里需要提醒下,beautifulsoup先将html_doc转换成Unicode,所以不方便。汉语会变成乱码,解决方法是:

soup.encoding = 'utf-8'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值