tweetf0rm 项目使用教程
tweetf0rmA twitter crawler in Python项目地址:https://gitcode.com/gh_mirrors/tw/tweetf0rm
1. 项目的目录结构及介绍
tweetf0rm/
├── config/
│ └── config_i0mf0rmer08.json
├── data/
│ ├── tweets_by_ids/
│ ├── tweets_id_range/
│ ├── places_by_queries/
│ └── places_by_ips/
├── test_data/
│ ├── tweet_ids.json
│ ├── tweets_id_range.json
│ └── ips.json
├── twitter_tracker.py
├── twitter_streamer.py
└── README.md
config/
: 包含项目的配置文件,如config_i0mf0rmer08.json
。data/
: 用于存储抓取的推文数据,包括按ID抓取的推文、按ID范围抓取的推文、按查询抓取的地点等。test_data/
: 包含测试数据文件,如推文ID列表、IP地址列表等。twitter_tracker.py
: 主要启动文件,用于执行推文抓取任务。twitter_streamer.py
: 用于实时流式抓取推文的启动文件。README.md
: 项目说明文档。
2. 项目的启动文件介绍
twitter_tracker.py
该文件是项目的主要启动文件,用于执行推文抓取任务。可以通过命令行参数指定不同的抓取命令和配置文件。
示例命令:
python twitter_tracker.py -c /twittertracker-config/config_i0mf0rmer08.json -o data/tweets_by_ids -cmd tweets_by_ids -cc test_data/tweet_ids.json
twitter_streamer.py
该文件用于实时流式抓取推文。可以通过命令行参数指定不同的流式抓取命令和配置文件。
示例命令:
python twitter_streamer.py -c /twittertracker-config/config_i0mf0rmer01.json -o /mnt/data2/twitter/sample/ -cmd sample
3. 项目的配置文件介绍
config_i0mf0rmer08.json
该配置文件包含了Twitter API的密钥信息和其他相关配置。
示例内容:
{
"apikeys": {
"i0mf0rmer01": {
"app_key": "APP_KEY",
"app_secret": "APP_SECRET",
"oauth_token": "OAUTH_TOKEN",
"oauth_token_secret": "OAUTH_TOKEN_SECRET"
}
}
}
test_data/tweet_ids.json
该文件包含了需要抓取的推文ID列表。
示例内容:
{
"end_id": 299,
"current_id": 0
}
test_data/ips.json
该文件包含了需要查询的IP地址列表。
示例内容:
{
"current_ix": 0,
"users": []
}
通过以上配置文件和启动文件,可以灵活地执行不同的推文抓取任务。
tweetf0rmA twitter crawler in Python项目地址:https://gitcode.com/gh_mirrors/tw/tweetf0rm