简单twitter(推特)爬虫和NLTK词频分析(0基础入门)

本文介绍了一个基于TWINT和NLTK的Twitter爬虫项目,无需爬虫基础,适合初学者。TWINT作为Twitter爬虫,优点包括免认证、无时间限制和自动存储。NLTK用于自然语言处理,进行词频分析。项目涵盖了TWINT的配置使用和NLTK的分词、词性标注、词性还原和词频统计等步骤。
摘要由CSDN通过智能技术生成

转载请指明出处

一、项目简介

本代码是大创期间所作。

当时发现网上资料很少,我深深体会到摸着石头过河是什么感觉,因此现在将其分享出来。

不需要爬虫基础,语法简单

所用到的工具

  • TWINT用于twitter爬虫

    相比twitter官网提供的爬虫API,它有如下优点:

    • 免身份认证,开箱即用
    • 没有七天限制(只能爬七天内的tweet)
    • 结果自动存储,格式化简单
  • NLTK用于自然语言处理

  • PyMySQL 用于操作数据库

  • 其他:代理服务器(仅限中国大陆需要)

本项目地址Twitter-spider(全代码注释,保证一看就懂,希望能点个star)

二、简单介绍

1、TWINT的用法和相关注意点

官网最简单的示例:

import twint

# 配置
c = twint.Config()
# 要爬取的用户
c.Username = "realDonaldTrump"
# 关键词
c.Search = "great"

# 启动
twint.run.Search(c)

只要简单的配置,就能够自动化爬取,完全不需要人工干预。

相关的配置参数请看官方文档

如果只是简单的想爬取含有关键词的所有tweet,可参考本项目用到的配置

# 爬虫主体
def spider(keyword, tweets):
    # 启动配置
    c = twint.Config()
    c.Search = keyword
    # 限制爬取条数
    c.Limit = Limit
    # 开启计数
    c.Count = True

    # 过滤含连接的tweet
    # c.Links = "exclude"

    # 只爬取热门tweet
    # c.Popular_tweets = True

    
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值