python微博爬虫教程_Python爬虫教程-新浪微博分布式爬虫分享

最新推荐文章于 2024-04-29 18:06:03 发布

weixin_39655689

最新推荐文章于 2024-04-29 18:06:03 发布

阅读量463

点赞数

文章标签： python微博爬虫教程

爬虫功能：

此项目实现将单机的新浪微博爬虫重构成分布式爬虫。

Master机只管任务调度，不管爬数据；Slaver机只管将Request抛给Master机，需要Request的时候再从Master机拿。

环境、架构：

开发语言：Python2.7

开发环境：64位Windows8系统，4G内存，i7-3612QM处理器。

数据库：MongoDB 3.2.0、Redis 3.0.501

(Python编辑器：Pycharm；MongoDB管理工具：MongoBooster；Redis管理工具：RedisStudio)

爬虫框架使用 Scrapy，使用 scrapy_redis 和 Redis 实现分布式。

分布式中有一台机充当Master，安装Redis进行任务调度，其余机子充当Slaver只管从Master那里拿任务去爬。原理是：Slaver运行的时候，scrapy遇到Request并不是交给spider去爬，而是统一交给Master机上的Redis数据库，spider要爬的Request也都是从Redis中取来的，而Redis接收到Request后先去重再存入数据库，哪个Slaver要Request了再给它，由此实现任务协同。

使用说明：

Python需要安装好Scrapy、pymongo、json、base64、requests。

Master机只需要安装好Redis即可(内存要求大点)，Slaver机需要安装python环境和MongoDB来存储数据。如果想要将数据都存储到一台机子上，直接改一下爬虫程序(pipeline)里面MongoDB的IP即可，或者建议搭建一个MongoDB集群。Redis和MongoDB都是安装好即可，不需要配置。

将你用来登录的微博账号和密码加入到 cookies.py 文件中，里面已经有两个账号作为格式参考了。

可以修改scrapy里面setting的设置，例如间隔时间、日志级别、redis的IP等等。

以上配置完以后运行 Begin.py 即可。重申Master机不需要跑程序，它的功能是利用Redis进行任务调度。Slaver机跑爬虫，新增一台Slaver机，只需要把python环境和MongoDB搭建好，然后将代码复制过去直接运行就行了。

项目源码

# encoding=utf-8

import json

import base64

import requests

"""输入你的微博账号和密码，可去淘宝买，一元七个。建议买几十个，微博反扒的厉害，太频繁了会出现302转移。或者你也可以把时间间隔调大点。"""

myWeiBo = [

{'no': 'jiadieyuso3319@163.com', 'psw': 'a123456'},

{'no': 'shudieful3618@163.com', 'psw': 'a123456'},

]

def getCookies(weibo):

""" 获取Cookies """

cookies = []

loginURL = r'https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)'

for elem in weibo:

account = elem['no']

password = elem['psw']

username = base64.b64encode(account.encode('utf-8')).decode('utf-8')

postData = {

"entry": "sso",

"gateway": "1",

"from": "null",

"savestate": "30",

"useticket": "0",

"pagerefer": "",

"vsnf": "1",

"su": username,

"service": "sso",

"sp": password,

"sr": "1440*900",

"encoding": "UTF-8",

"cdult": "3",

"domain": "sina.com.cn",

"prelt": "0",

"returntype": "TEXT",

}

session = requests.Session()

r = session.post(loginURL, data=postData)

jsonStr = r.content.decode('gbk')

info = json.loads(jsonStr)

if info["retcode"] == "0":

print "Get Cookie Success!( Account:%s)" % account

cookie = session.cookies.get_dict()

cookies.append(cookie)

else:

print "Failed!( Reason:%s)" % info['reason']

return cookies

cookies = getCookies(myWeiBo)

print "Get Cookies Finish!( Num:%d)" % len(cookies)

初学者对Python的概念模糊不清的，Python能做什么，学的时候该按照什么线路去学习，学完往哪方面发展，想深入了解，详情可以复制有道云笔记链接到浏览器打开了解：有道云笔记note.youdao.com

学习视频资料、开发工具等都有免费分享，还有专业的老师答疑

weixin_39655689

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python微博爬虫教程_Python爬虫教程-新浪微博分布式爬虫分享

爬虫功能：此项目实现将单机的新浪微博爬虫重构成分布式爬虫。Master机只管任务调度，不管爬数据；Slaver机只管将Request抛给Master机，需要Request的时候再从Master机拿。环境、架构：开发语言：Python2.7开发环境：64位Windows8系统，4G内存，i7-3612QM处理器。数据库：MongoDB 3.2.0、Redis 3.0.501(Python编辑器：Py...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。