twint
twint
是用 Python
编写的高级 Twitter
抓取和 OSINT
工具,不使用 Twitter
的 API
,允许您抓取用户的关注者、关注者、推文等,同时规避大多数 API 限制。
Twint
是一个用 Python 编写的高级 Twitter 抓取工具,它允许在不使用 Twitter
的 API 的情况下从 Twitter 个人资料中抓取推文。
Twint
利用Twitter
的搜索运算符让您从特定用户那里抓取推文,抓取与某些主题、主题标签和趋势相关的推文,或者从推文中整理出敏感信息,例如电子邮件和电话号码。我觉得这很有用,你也可以用它来发挥创意。
Twint
还对 Twitter
进行特殊查询,允许您在没有任何身份验证、API
、Selenium
或浏览器仿真的情况下抓取 Twitter
用户的关注者、用户喜欢的推文以及他们关注的人。
使用 Twint
与 Twitter API
的一些好处:
- 可以获取几乎所有推文(
Twitter API
限制为最后 3200 条推文); - 快速初始设置;
- 可以匿名使用,无需注册
Twitter
; - 没有速率限制。
安装
最简单的方法就是采用pip
的安装方式:
pip3 install twint
实例:
最简单的实例,获得如下的输出:
import twint
# Configure
c = twint.Config()
c.Username = "realDonaldTrump"
c.Search = "great"
# Run
twint.run.Search(c)
输出
955511208597184512 2018-01-22 18:43:19 GMT <now> pineapples are the best fruit
import twint
c = twint.Config()
c.Username = "noneprivacy"
c.Custom["tweet"] = ["id"]
c.Custom["user"] = ["bio"]
c.Limit = 10
c.Store_csv = True
c.Output = "none"
twint.run.Search(c)
twint
可以支持如下的存储格式:
- 写入文件;
- CSV;
- JSON;
- SQLite;
- Elasticsearch
图形可视化
通过图文的形式来看数据的形式是最直观的,twint
同样的支持这种形式,如下是简单的展示数据的关联形式。