爬个百度柯南吧的人员排名和他们关注贴吧

最新推荐文章于 2024-06-14 08:30:00 发布

gefeng0

最新推荐文章于 2024-06-14 08:30:00 发布

阅读量821

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/u010449916/article/details/50389959

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

写个小爬虫，以柯南贴吧为例，爬出所以贴吧人员名单和他们的关注贴吧。

在写的时候遇到问题如下：

1.转码问题：百度贴吧是gbk格式，在使用使有点问题，保存在txt文件中码流出现问题，有很大一部分文字无法显示。

2.昵称转码：

'\xc9\xbd\xb9\xb5\xb9\xb5'

柯南贴吧主页：http://tieba.baidu.com/f?kw= %BF%C2%C4%CF&fr=index

是将‘柯南’转换为gbk编码将'\x'替换为'%'的方式。

开始是想通过将昵称转为gbk码进行爬取个人主页，结果发现贴吧的url将'\x' 替换为'%'了，试了很多次，由于\xbf这样的为一个字节，无法分割，所以不太好分解，替换。

源码：

  
  
   
   
    
     
   
   
   
   
    
    import urllib
   
   
   
   
    
    import urllib2
   
   
   
   
    
    import re,
   
   
   
   
    
    #贴吧排名页
    
     
   
   
   
   
    
    url = "http://tieba.baidu.com/f/like/furank?kw=%BF%C2%C4%CF&pn="
   
   
   
   
    
    #个人主页
   
   
   
   
    
    user_url = "http://tieba.baidu.com/home/main?un="
   
   
   
   
    
    request = urllib2.Request(url+'1')
   
   
   
   
    
    response = urllib2.urlopen(request)
   
   
   
   
    
    #匹配排名页的用户数
   
   
   
   
    
    patters = re.compile('gray">(\d*?)</span>')
   
   
   
   
    
    content = response.read().decode('gbk')
   
   
   
   
    
    #取得贴吧粉丝总数
   
   
   
   
    
    allper   = re.findall(patters,content)
   
   
   
   
    
    txt = open('data','w')
   
   
   
   
    
    print int(allper[0])
   
   
   
   
    
    #计算页数
   
   
   
   
    
    pages = int(allper[0]
    
    )/
    
    20
   
   
   
   
    
    #分页爬取
   
   
   
   
    
    for i in range(1,pages+1):
   
   
   
   
    
        request = urllib2.Request(url+str(i))
   
   
   
   
    
        response = urllib2.urlopen(request)
   
   
   
   
    
        content = response.read().decode('gbk')
   
   
   
   
    
    #取用户名
   
   
   
   
    
        pattern = re.compile('username="(.*?)">(.*?)</a>')
   
   
   
   
    
    #取得名次
   
   
   
   
    
        patterl = re.compile('">(\d*?)</p>')
   
   
   
   
    
        posts   = re.findall(patterl,content)
   
   
   
   
    
        items = re.findall(pattern,content)
   
   
   
   
    
        for k in range(20):
   
   
   
   
    
            tmp = items[k][0].encode('gbk')
   
   
   
   
    
    #进入用户个人主页
   
   
   
   
    
            request1 = urllib2.Request(user_url+tmp+'&fr=home')
   
   
   
   
    
     
   
   
   
   
    
            response1 = urllib2.urlopen(request1)
   
   
   
   
    
    #取得个人关注贴吧
   
   
   
   
    
            patterk = re.compile('u-f-item unsign"><span>(.*?)</span>')
   
   
   
   
    
            content = response1.read().decode('gbk')
   
   
   
   
    
            abort   = re.findall(patterk,content)
   
   
   
   
    
            print items[k],posts[k]
   
   
   
   
    
            txt.write(posts[k])
   
   
   
   
    
            txt.write(' ' + items[k][1].encode('gbk') +':\n')
   
   
   
   
    
            for n in abort :
   
   
   
   
    
                txt.write('['+n.encode('gbk')+']')
   
   
   
   
    
            txt.write('\n')
   
   
   
   
    
    txt = open('data.txt','w')
   
   
   
   
    
    txt.close()