爬虫实战(1)：直播吧网站的赛程表

最新推荐文章于 2024-08-08 14:56:10 发布

Aerolite坠落

最新推荐文章于 2024-08-08 14:56:10 发布

阅读量1.8k

点赞数 2

文章标签：爬虫

本文链接：https://blog.csdn.net/scf0920/article/details/50349524

版权

本文介绍了一次爬虫实战经历，目标是抓取直播吧网站的赛程信息。由于网站源代码复杂，不同比赛格式不一，作者花费较多时间处理异常格式，如图片和特殊标记。解决方案是利用split方法去除混乱内容。提供了相应的爬虫代码实现。

摘要由CSDN通过智能技术生成

网站地址：直播吧
本来是想写糗事百科的。。但是不知道为什么总是被禁止。。于是就换了个直播吧。
本来以为直播吧的很好写。但是发现直播吧的源代码写的很混乱。相同的比赛，有的是重点比赛，有的不是，因此格式不一样。。。还有的会混着图片。时间大部分都用来处理这方面了。最终想到了用split方法来处理掉中间这些混着的空格，图片和重点比赛标志。
代码如下：

import urllib
import urllib2
import re

class zbb:
    def __init__(self):
        self.url='http://www.zhibo8.cc/index.html'
        self.user_agent='Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:42.0) Gecko/20100101 Firefox/42.0&#