python爬虫爬微信红包_爬虫之微博抢红包

先让大家看下最终效果...

1,使用的工具及包

google浏览器

User-Agent Switcher for Google Chrome 这是一个能自定义浏览器头的Google浏览器插件

requests ---爬虫必备包(安装 pip install requests )

lxml ---解析html的一个包(安装 pip install lxml),windows用户如果安装不上的话,到Python Extension Packages for Windows 这边下载

js2xml ---把JavaScript语句转成xml (安装 pip install js2xml )

2,分析页面

先用User-Agent Switcher for Google Chrome将浏览器头改为 chrome on Android Mobile

1,获取所有的红包列表

随便点开及个“抢红包”按钮 发现url是这样的

可以发现只有ouid是变化的,所以,我们只要得到ouid就可以生成url了。

使用f12发现如下图的 action-data就是我们需要的ouid了,这样我们就得到了所有的groupid了

代码如下

#获取红包列表

def getuid():

url = 'http://chunjie.hongbao.weibo.com/hongbao2017/h5index'

z = requests.get(url,headers=headers)

if z.status_code == 200:

# 这边是查找所有的ouid

alluid = etree.HTML(z.content).xpath('//div[@class="m-auto-box"]/@action-data')

return alluid

2,“抢红包”

打开 其中一个粉丝红包页面,点击抢红包,查看请求

发现请求的url是 (请加上http://,知乎如果url写全会自动转为页面标题.)

请求的方法是post

请求的参数是groupid: 同上面的groupid,默认都是1000110

uid: 就是上面获取的ouid

share: 经过测试,1表示分享到微博,0表示不分享

st: 是一个变动的值,所以每次必须先获取它

获取st

一般这些值都在网页源代码里面,所以我们直接打开在粉丝红包查看源代码,然后搜索st

果然,值就在源代码里面。

因为值在JavaScript代码里面,所以我们用js2xml来获取它(当然也可以用正则表达式)

代码如下:

def getst(url):

z = requests.get(url,headers=headers)

jscode = etree.HTML(z.content).xpath("//script[contains(., 'weibo')]/text()")[0].replace(u'','')

parsed_js = js2xml.parse(jscode)

st = parsed_js.xpath('//property[@name="st"]/string/text()')[0]

return st

这边有用到replace把“” 替换掉是因为中文会一直报错

cookie 填写可以看如下截图,把下图中的SING到0304 复制,然后放到下面代码中****号的位置

headers ={

#这边cookie替换成你的cookie

'Cookie':'*****',

'User-Agent':'Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19',

}

最后完整代码如下:

# -*- coding: utf-8 -*-

import requests

import js2xml

from lxml import etree

headers ={

#这边cookie替换成你的cookie

'Cookie':'',

'User-Agent':'Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19',

}

#获取红包列表

def getuid():

url = 'http://chunjie.hongbao.weibo.com/hongbao2017/h5index'

# 带上request headers

z = requests.get(url,headers=headers)

if z.status_code == 200:

# 这边是查找所有的ouid

alluid = etree.HTML(z.content).xpath('//div[@class="m-auto-box"]/@action-data')

return alluid

#获取st的值

def getst(url):

#带上request headers

z = requests.get(url,headers=headers)

# 获取第一段JavaScript,并去掉 ,防止中文报错

jscode = etree.HTML(z.content).xpath("//script[contains(., 'weibo')]/text()")[0].replace(u'','')

#使用js2xml 把JavaScript代码替换成xml

parsed_js = js2xml.parse(jscode)

#打印下 xml

# print js2xml.pretty_print(parsed_js)

#从上面可以看到st在哪,然后用xpath写出来

st = parsed_js.xpath('//property[@name="st"]/string/text()')[0]

return st

# 抢红包

def tj(url,uid,st,tjheaders):

#生成需要发送的data

data = {

'groupid':'1000110',

'uid':uid,

'share':'1',

'st':st

}

# 这里使用了post,headers增加了Referer

z = requests.post(url,data=data,headers=tjheaders)

#把得到的结果以json形式展示

_ = z.json()

#如果json中有“ok”,表示提交成功了,否则返回报错信息

if _.has_key('ok'):

print _['data']['error_msg']

else:

print _['errMsg']

if __name__ == '__main__':

# 得到所有的uid

uids = getuid()

for uid in uids:

#生成红包页面的url

url = 'http://hongbao.weibo.com/h5/aboutyou?groupid=1000110&ouid=%s' %uid

#获取st

st = getst(url)

#生成点击“抢红包”页面的url

tjurl = 'http://hongbao.weibo.com/aj_h5/lottery?uid=%s&groupid=1000110&wm=' %uid

# 添加Referer,如果不添加会报错

headers['Referer'] = url

tjheaders = headers

try:

# 点击“抢红包”

tj(tjurl,uid,st,tjheaders)

except:

pass

总结

整个微博抢红包爬虫如下:获取所有的红包列表

获取点击"抢红包的动作"

因为2中需要一个参数st,所以我们生成了st

模拟点击抢红包

欢迎关注本人的微信公众号获取更多Python爬虫相关的内容

(可以直接搜索「Python爬虫分享」)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
根据提供的引用内容,我们可以得知微信公众号的阅读数是通过抓取文章的url链接来获取的。因此,我们可以使用Python爬虫来实现这个功能。具体步骤如下: 1. 首先需要安装requests和BeautifulSoup库,可以使用以下命令进行安装: ```shell pip install requests pip install beautifulsoup4 ``` 2. 接着,我们需要获取微信公众号文章的url链接。可以通过在微信公众号平台上手动获取,或者使用Python爬虫自动获取。 3. 获取到文章的url链接后,我们可以使用requests库发送GET请求获取文章的HTML源代码。 4. 使用BeautifulSoup库解析HTML源代码,找到包含阅读数的标签,并提取出阅读数。 5. 最后,将提取出的阅读数进行输出即可。 下面是一个示例代码,可以获取指定微信公众号最新一篇文章的阅读数: ```python import requests from bs4 import BeautifulSoup # 公众号名称 name = '公众号名称' # 公众号文章页数 page = 1 # 构造请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 获取指定公众号最新一篇文章的url链接 url = 'https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=' + biz + '&scene=124&uin=&key=&devicetype=Windows+10&version=62080079&lang=zh_CN&a8scene=0&fontgear=2' # 发送GET请求获取HTML源代码 response = requests.get(url, headers=headers) html = response.text # 使用BeautifulSoup解析HTML源代码 soup = BeautifulSoup(html, 'html.parser') read_num = soup.find('span', {'class': 'read_num'}).get_text() # 输出阅读数 print('最新一篇文章的阅读数为:' + read_num) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值