一直认为百度贴吧默认表情比较有趣,于是学了爬虫后,我便想把这些表情爬下来.
1.URL分析
分析这些url,发现它们的模式都是这样的:
http://static.tieba.baidu.com/tb/editor/images/client/image_emoticon%d.png
所以,我们只需要用数字替换掉%d就行了.并且因为表情只有50张,我们只需要1到50就行了.
2.爬取网页
有了url,那么爬取网页就方便了.因为这里的url直接指向图片地址,不包含其他内容,所以我直接用urllib.urlretrieve()函数下载图片.
3.使用多线程爬取
关于多线程具体原理我还不是很懂,这里我也是参考他人代码.首先,将要爬取的url收集到一个list中,接着开启线程池,调用map()函数,即对list中的每一个url进行下载.
具体代码见这里:用多线程爬取百度贴吧默认表情