TweetScraper 安装和配置指南

最新推荐文章于 2024-09-13 22:05:56 发布

冯彩如

最新推荐文章于 2024-09-13 22:05:56 发布

阅读量146

点赞数 1

本文链接：https://blog.csdn.net/gitblog_07213/article/details/142227876

版权

TweetScraper 安装和配置指南

TweetScraper TweetScraper is a simple crawler/spider for Twitter Search without using API 项目地址: https://gitcode.com/gh_mirrors/tw/TweetScraper

1. 项目基础介绍和主要编程语言

TweetScraper 是一个用于从 Twitter 搜索中抓取推文的简单爬虫/蜘蛛工具。该项目基于 Scrapy 框架开发，无需使用 Twitter 的 API。虽然抓取的数据不如通过 API 获取的数据干净，但你可以摆脱 API 的速率限制和限制。TweetScraper 主要使用 Python 编程语言开发。

2. 项目使用的关键技术和框架

Scrapy: 一个用于抓取网站并提取结构化数据的 Python 框架。
Selenium: 用于自动化浏览器操作，帮助模拟用户行为。
Firefox Geckodriver: 用于控制 Firefox 浏览器的驱动程序。

3. 项目安装和配置的准备工作和详细安装步骤

准备工作

安装 Miniconda: 你可以从 Miniconda 下载并安装 Miniconda。
安装 Python 3.7: 确保你的系统上安装了 Python 3.7。
安装 Selenium Python 绑定: 你可以通过以下命令安装 Selenium：
```
pip install selenium
```

详细安装步骤

克隆项目仓库:

git clone https://github.com/jonbakerfish/TweetScraper.git
cd TweetScraper

运行安装脚本:
```
bash install.sh
```
这个脚本会创建一个新的 conda 环境 tweetscraper，并安装所有依赖项（包括 firefox-geckodriver 和 firefox）。
激活 conda 环境:
```
conda activate tweetscraper
```
验证安装:
```
scrapy list
```
如果输出是 TweetScraper，则说明安装成功。
配置用户代理: 打开 TweetScraper/settings.py 文件，修改 USER_AGENT 为你自己的信息：
```
USER_AGENT = 'your website/e-mail'
```
运行爬虫: 在项目的根目录下，运行以下命令来启动爬虫：
```
scrapy crawl TweetScraper -a query="foo #bar"
```
其中 query 是你想要搜索的关键词或标签，用引号括起来。
保存路径配置: 默认情况下，推文和用户数据会保存在 /Data/tweet/ 和 /Data/user/ 目录下。如果你想要更改保存路径，可以修改 TweetScraper/settings.py 文件中的 SAVE_TWEET_PATH 和 SAVE_USER_PATH。