简单twitter（推特）爬虫和NLTK词频分析（0基础入门）

最新推荐文章于 2024-09-19 17:14:37 发布

思而常青

最新推荐文章于 2024-09-19 17:14:37 发布

阅读量4.1k

点赞数 8

分类专栏： python 文章标签： python 大数据 twitter nltk

本文链接：https://blog.csdn.net/HBBBOY/article/details/108118310

版权

本文介绍了一个基于TWINT和NLTK的Twitter爬虫项目，无需爬虫基础，适合初学者。TWINT作为Twitter爬虫，优点包括免认证、无时间限制和自动存储。NLTK用于自然语言处理，进行词频分析。项目涵盖了TWINT的配置使用和NLTK的分词、词性标注、词性还原和词频统计等步骤。

摘要由CSDN通过智能技术生成

转载请指明出处

一、项目简介

本代码是大创期间所作。

当时发现网上资料很少，我深深体会到摸着石头过河是什么感觉，因此现在将其分享出来。

不需要爬虫基础，语法简单

所用到的工具：

TWINT用于twitter爬虫
相比twitter官网提供的爬虫API，它有如下优点：
- 免身份认证，开箱即用
- 没有七天限制（只能爬七天内的tweet）
- 结果自动存储，格式化简单
NLTK用于自然语言处理
PyMySQL 用于操作数据库
其他：代理服务器（仅限中国大陆需要）

本项目地址：Twitter-spider（全代码注释，保证一看就懂，希望能点个star）

二、简单介绍

1、TWINT的用法和相关注意点

官网最简单的示例：

import twint

# 配置
c = twint.Config()
# 要爬取的用户
c.Username = "realDonaldTrump"
# 关键词
c.Search = "great"

# 启动
twint.run.Search(c)

只要简单的配置，就能够自动化爬取，完全不需要人工干预。

相关的配置参数请看官方文档

如果只是简单的想爬取含有关键词的所有tweet，可参考本项目用到的配置：

# 爬虫主体
def spider(keyword, tweets):
    # 启动配置
    c = twint.Config()
    c.Search = keyword
    # 限制爬取条数
    c.Limit = Limit
    # 开启计数
    c.Count = True

    # 过滤含连接的tweet
    # c.Links = "exclude"

    # 只爬取热门tweet
    # c.Popular_tweets = True