python新浪微博爬虫_scrapy实现新浪微博爬虫

最新推荐文章于 2024-08-09 08:06:10 发布

weixin_39718006

最新推荐文章于 2024-08-09 08:06:10 发布

阅读量719

点赞数

文章标签： python新浪微博爬虫

本文介绍了如何使用Scrapy框架构建新浪微博爬虫，包括解决登录、页面渲染问题，以及利用oid获取用户微博，并通过正则匹配提取内容。教程中详细阐述了每个步骤，适合初学者实践。

摘要由CSDN通过智能技术生成

本篇文章主要讲述了用scrapy实现新浪微博爬虫，具有一定的参考价值，感兴趣的朋友可以了解一下，看完不妨自己去试试哦！

最近因为做毕设的原因，需要采集一批数据。本着自己动手的原则，从新浪微博上采集到近百位大家耳熟能详的明星14-18年的微博内容。看看大佬们平常都在微博上都有哪些动态吧～

1.首先项目采用scrapy编写，省时省力谁用谁知道。

采集的网站为weibo.com，是微博的网页端。稍稍麻烦了一点，但相对于移动段和wap站点来说内容稍微更全一点。

2.采集之前我们先来看下微博都给我们设置了哪些障碍。登录

页面js渲染

由于微博对于没登录的用户默认都是302跳转到登录界面，所以采集微博钱必须得让微博认为，本次采集偷了个懒，直接是先手动登录然后保存cookie到scrapy上，请求的时候带上cookie去访问，因为采集量并不是很大，估计也就10w条左右。这里需要对刚入scrapy的小伙伴需要提醒一下，scrapy的cookie是类似与json的形式，不像平常在requests上直接粘贴就可以用，需要转换一下格式。

大概就是像这样，所以需要把登录后的cookie粘贴出来用代码转换一下，代码如下：class transCookie:

def __init__(self, cookie):

self.cookie = cookie

def stringToDict(self):

最低0.47元/天解锁文章

weixin_39718006

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。