twitter APi的使用与twitter数据的应用

网络爬虫:

            网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在爬取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 

图1 网络爬虫基本原理图

网络爬虫的基本工作流程如下:

    1.首先选取一部分精心挑选的种子URL;

    2.将这些URL放入待抓取URL队列;

    3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

    4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

 

API

开放应用程序的API(即Application Program Interface,应用程序接口)可以让开发者在无需访问源码,或理解内部工作机制细节的情况下,调用他人共享的功能和资源。开发者可以通过认证,根据企业规提供的编程接口,限制性的获取自己需要的数据来开发自己的应用。

像国内新浪微博、腾讯微博、百度地图、高德地图等等很多应用都开发了自己的应用接口。开发者在注册完账户,申请自己的相关应用就可以获取平台数据。

 

网络爬虫与应用API的区别

复杂度:网页爬虫爬取数据要比API获取数据要复杂的多,网页爬虫不仅需要解析网页还需要考虑爬取算法等一些因素,而API得使用就要想多简单的多,一般直接使用应用提供的数据接口,直接能获取到相关数据。

爬取限制:网页爬虫理论上爬取数据是没有限制的,但是有些网站会采取一些相关的反爬虫的技术,如IP限制,js数据写入。但是只要你技术牛,你就可以采取反反爬虫,因此说网页爬虫是没有限制的。但是使用API是受到爬取数据量的限制,已经爬取相关数据的限制。

返回数据:网页爬虫爬取相关界面以后,往往需要处理简析html界面,然后进行判断,数据的整合,最后才能返回结构化的数据。但是API一般使用一个URl地址或者调用一个函数,就能返回一个结构化的数据,如返回json或者XMl数据。

注册认证:网页爬虫不需要注册认证,你爬取对方的数据时不需要通知数据提供商(听起来好像是在窃取他人财产),写完爬虫程序就可以爬取数据。而API是调用数据提供商的接口,你首先得注册一个账号,然后获取你应用的授权才能使用接口。

 

获取TwitterAPI keys

•      注册一个Twitter账号

•      到https://apps.twitter.com/登入twitter账号

•      点击“Create New App”,新建你自己的应用

•      填写应用信息表单, 然后点击“Create your Twitter application”生成你的twitter应用

•      在“keys and Access Tokens”界面, 点击“API keys”, 然后记录你的“API key” 和"API secret".

•      在“keys and Access Tokens”界面点击“Create my access token”, 记录你的"Access token" and "Access token secret".

这里我就不啰嗦一步一步截图了,按照上面一步一步做就行。但是只里面有一个坑,需要注意的:twitter在创建应用时,你的twitter账号一定要绑定你的手机,但是国内的手机运营商收不到验证码。这里好像可以用手机版twitter去绑定手机号(实测联通可以收到验证码,电信好像不可以,移动没

  • 5
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值