关于微博数据抓取的实践

最新推荐文章于 2021-04-18 19:17:31 发布

Towan

最新推荐文章于 2021-04-18 19:17:31 发布

阅读量3.9k

点赞数

分类专栏：搜索引擎微博抓取文章标签：新浪微博正则表达式网络爬虫开放api 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/htw2012/article/details/12709467

版权

微博抓取同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

最近接到一个任务主要是想抓取微博相关微博数据。比如说抓取一个特定微博中微博数、关注数、被关注的粉丝数、个人相关信息比如居住地、学校等公开的信息，以及被关注数的粉丝、微博数、关注数及相关信息。以便收集到信息以后用来做数据挖掘。

调查了许久，发现获取数据的方法大概有三种方法：

1.相关微博开发平台提供的api

2.使用网络爬虫

3.结合爬虫及微博开放api方法进行抓取。

对于第一种方法，以新浪微博为例，我在官方开放的平台中申请了一个认可的app-key，看了api的分类（有的需要高级权限才能访问），随便找了一个接口进行测试，看了相关的接口格式，运用了自己的app-key进行测试，能够获得相关数据，但具有很大的限制，诸如每次查询返回条数等限制。而且进行测试的查询次数也有限制。给我带来了很大的不变。另外，我下了新浪官方给的java sdk包，总是将请求参数传不进去，抛出异常，调试了半天时间，就先放放，等改天再进行检查。于是我就转向了网络爬虫的方法进行收集数据。

对于网络爬虫，之前没有接触过，到时java网络编程，想到可以获取到html源码，再从html标签中应用正则表达式选择相关元素诸如获取微博数、关注数、粉丝数、内容等等，回顾了下正则表达式的用法，想通过此方法获得。结果发现，自己获取HTML源码时碰到一个登陆验证的问题。。那么怎样传入我的登陆信息呢？另外，我登陆进去了，我在主页上发现没有找到，相关内容的元素信息，难道是新浪给屏蔽了，不可能吧？获取不成功后，找到一个爬虫工具Heritrix,想通过此工具进行实践。

希望接下来会能获取到微博的相关信息。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
关于微博数据抓取的实践

最近接到一个任务主要是想抓取微博相关微博数据。比如说抓取一个特定微博中微博数、关注数、被关注的粉丝数、个人相关信息比如居住地、学校等公开的信息，以及被关注数的粉丝、微博数、关注数及相关信息。以便收集到信息以后用来做数据挖掘。调查了许久，发现获取数据的方法大概有三种方法：1.相关微博开发平台提供的api2.使用网络爬虫3.结合爬虫及微博开放api方法进行抓取。
复制链接

扫一扫

专栏目录

Towan CSDN认证博客专家 CSDN认证企业博客

码龄11年

166: 原创

13万+: 周排名

206万+: 总排名

46万+: 访问

: 等级

6093: 积分

57: 粉丝

36: 获赞

29: 评论

90: 收藏

私信

关注

热门文章

分类专栏

分布式技术 22篇
云计算 11篇
数据挖掘 7篇
搜索引擎 11篇
微博抓取 21篇
数据收集 3篇
java 57篇
网络安全 5篇
知识手册 17篇
版本控制 11篇
linux 22篇
数据结构和算法 3篇
基础服务 19篇
数据库 14篇
zookeeper 6篇
kafka 4篇
solr 10篇
重构 1篇
持续集成 3篇
可视化 1篇
并发编程
高可用 3篇
Lucene 2篇
Java EE 4篇
高性能 3篇
推荐引擎 3篇
机器学习 4篇
消息系统
NLP 2篇
算法 3篇

最新评论

新浪微博的页面解析思考
开渝: 麻烦问下，怎么做的呀？
数据挖掘技术、方法及应用
Tisfy: 我总在想，是否有神灵活在本文灵秀的外表下
U盘安装ubuntu无法引导
霏凡网络科技: 没用
推荐一款java代码生成的插件EMF
一个技术小白haha: 请问博主，在创建EMF　Generator　model时　select　ａ　model　import时选择annotated　Java 就会报错　　 problem were encountered processing the java source. resean: errors were detected while resolving names or processing @model annotation details:no model elements were found in java spurce:check for @model on interfaces and classes 有没有遇见过这种问题
arp断网攻击解决办法
asdasdgfassvzsdv 回复小蓝藻: 肉搏呀，自己实力要强才能教他、她、它做人

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。