Twitter爬虫Python库Tweepy 附中英文官方文档

前言

Twitter Tweepy相关这块内容在CSDN甚至搜索引擎里都少得可怜

一、Tweepy是什么

我们知道,想要获取的twitter的数据,直接爬虫是比较麻烦的,很多数据都是js渲染出来的,所以尽量走阳关大道,那就是使用twitter官方api,我已申请,不多赘述如何申请。今天要介绍的Tweepy就是基于twitter api再次封装的一个库, 在OAuth 认证上比官方api好用很多,代码也相当简练,结合pandas、echarts等等一些库,可以做很多有趣的实现。

二、Tweepy可以干什么

可以干的事情太多了,我提一些关键词吧,标签、统计、调研、样本作图、分词、情感分析、监控、数据可视化、等等。提示:记得上梯子,不然访问不了接口。
安装Tweepy:pip install tweepy

三、一个简单的demo

import tweepy

# API认证
def ApiAuthentic():
    consumer_key = "你的key"   
    consumer_secret = "你的consumer_secret"   
    access_token = "你的token"   
    access_token_secret = "你的token_secret"  
    auth = tweepy.OAuthHandler(consumer_key, consumer_secret)   
    auth.set_access_token(access_token, access_token_secret)  
    api = tweepy.API(auth)
    # redirect_url = auth.get_authorization_url()
    # print(api.me().screen_name + '认证成功')
    return api   

# 导入监控列表
def ImportMonitor(opendir):
    result = []
    with open(opendir, 'r') as file_to_read:
        while True:
            line = file_to_read.readline()
            if not line:
                break
            line = line.strip('\n')
            result.append(line)
    return result

# 查询数据
def QueryFans(api,userlist):
    print("------数据获取中------")
    n = 1
    for i in userlist:
        try:
            user = api.get_user(i)
            print(n)
            n=n+1
            with open(r'data.txt','a+') as f:
                f.write('{}----{}----{}\n'.format(i,user.name,user.followers_count))
        except:
            print("{}账号获取失败".format(i))
            continue
    print("------获取结束------")

if __name__ == '__main__':
    userlist = ImportMonitor(r'monitor_list.txt')
    print("------监控列表读取成功-----")
    api = ApiAuthentic()
    print('------'+api.me().screen_name + '认证成功------')
    QueryFans(api,userlist)

最烦贴代码不放效果图的人了(狗头):
实现的功能是从记事本里取id然后通过api把数据保存到data.txt,打开txt如下图,分别是 用户名,id,粉丝数,所以,悟了吗?
拉取效果

四、一个更简单的demo

嗯,我就知道你还不会,所以我准备了一个更简单的例子,再来:

import tweepy

consumer_key = "你的key"   
consumer_secret = "你的consumer_secret"   
access_token = "你的token"   
access_token_secret = "你的token_secret"  
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

api = tweepy.API(auth)

public_tweets = api.home_timeline()
for tweet in public_tweets:
    print(tweet.text)

home_timeline()方法APITweepy模块中的类用于获取由身份验证用户和该用户的朋友发布的20个最新状态,包括转发。

用法:
API.home_timeline(parameters)

参数:
since_ids:仅获取比指定ID更新的状态。
max_ids:仅获取早于或等于指定ID的状态。
count:要获取的状态数,默认值为20。
返回值:状态类的对象列表

看图,大概就是这样:
homeline

五、文档下载

最后再说一下Tweepy的特点:

API 类提供对整个 twitter restapi 方法的访问,每个方法都可以接受各种参数并返回响应。tweepy 同时也支持长链接的形式得到即时信息,没错就是 stream!tweepy API 的返回值一般都是对象,不同的对象取值字段不同,具体需要具体分析

  • 推文相关—— Status 对象
  • 用户相关—— User 对象
  • 好友相关—— FriendShip 对象
  • 搜索记录相关—— SavedSearch 对象

好了,Just Do it!

一些关于Twitter用户、粉丝、推文等等的操作,都在中文pdf里面,部分包含实例代码和注释。

tweepy库官方文档.pdf(英语原版):

点我下载

tweepy库中文文档.pdf(中文):
点我下载

均是 0 积分,免费下载

👍👍👍
☆ ☆ ☆

  • 9
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Python Twitter爬虫是一种使用Python编程语言编写的程序,用于从Twitter上获取数据。根据题目要求的2023年,我们可以预测一些可能的发展和变化。 首先,技术方面的改进可能会带来更高效和准确的爬取能力。Python社区将持续改进现有的Twitter爬虫库,如TweepyPython-Twitter,以确保其与Twitter API的最新版本兼容,并提供更丰富的功能和灵活性。爬虫程序将能够使用更多的查询参数和过滤选项,以获取用户、帖子、话题等更具体和有针对性的数据。 其次,数据隐私和安全性的问题将更加重要。Twitter在数据访问和使用方面可能会进一步加强安全措施,以保护用户隐私和防止滥用。这意味着爬虫程序可能需要更严格的身份验证和授权,以及更明确的数据使用规范。开发者可能需要遵守更严格的规定和规范,以确保他们的爬虫程序符合相关法规和道德准则。 此外,与社交媒体分析和大数据相关的高级技术可能会在Python Twitter爬虫中得到更广泛的应用。例如,自然语言处理和机器学习算法可以用于从海量的推文中提取有用的信息和洞察。基于用户行为和话题模式的分析可以被用于预测趋势、事件发展和舆情变化。这些高级功能将为企业、政府和个人用户提供更好的决策支持和市场洞察。 总之,到2023年,Python Twitter爬虫将在功能和性能方面得到进一步改进,同时也将面临越来越严格的数据隐私和安全要求。随着社交媒体数据分析和大数据技术的发展,爬虫程序将变得更加智能和有效,并成为各种领域研究和决策的重要工具。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值