python-爬取某个用户关注小组发布过的所有动态

最新推荐文章于 2021-03-26 18:20:28 发布

麋鹿BRO

最新推荐文章于 2021-03-26 18:20:28 发布

阅读量1.3k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/sinat_24230393/article/details/91362074

版权

本例子只是简单的爬取用户的动态，但是会被豆瓣检测到是机器人，后续可以接入代理ip, 模拟浏览器请求。

代码：

import requests
import urllib
import json
import re
import os,sys

def findUserGroup(id):
  url = 'https://www.douban.com/group/people/'+id+'/joins'
  print(url)
  data = requestTo(url)
  groupIds = re.findall("<a href=\"(.*?)\"><img src=",data.text)

  userName = re.findall("(.*?)<li class=\"loc\">", data.text)

  for groupUrl in groupIds:
    findGroupDetail(groupUrl, id)

  print data.text


def findGroupDetail(url, id):
    res_tr = '<tr class="">(.*?)</tr>'
    title_href = '<a href="(.*?)" title='

    pageNum = getPageNum(url)

    for index in range(pageNum):
      if(index > 2):
          break
      print index
      url = url+'discussion?start='+str(index*25)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

麋鹿BRO

关注关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python-爬取某个用户关注小组发布过的所有动态

本例子只是简单的爬取用户的动态，但是会被豆瓣检测到是机器人，后续可以接入代理ip, 模拟浏览器请求。代码：import requestsimport urllibimport jsonimport reimport os,sysdef findUserGroup(id): url = 'https://www.douban.com/group/people/'+id+'/jo...
复制链接

扫一扫