转载请指明出处
一、项目简介
本代码是大创期间所作。
当时发现网上资料很少,我深深体会到摸着石头过河是什么感觉,因此现在将其分享出来。
不需要爬虫基础,语法简单
所用到的工具:
-
TWINT用于twitter爬虫
相比twitter官网提供的爬虫API,它有如下优点:
- 免身份认证,开箱即用
- 没有七天限制(只能爬七天内的tweet)
- 结果自动存储,格式化简单
-
NLTK用于自然语言处理
-
PyMySQL 用于操作数据库
-
其他:代理服务器(仅限中国大陆需要)
本项目地址:Twitter-spider(全代码注释,保证一看就懂,希望能点个star)
二、简单介绍
1、TWINT的用法和相关注意点
官网最简单的示例:
import twint
# 配置
c = twint.Config()
# 要爬取的用户
c.Username = "realDonaldTrump"
# 关键词
c.Search = "great"
# 启动
twint.run.Search(c)
只要简单的配置,就能够自动化爬取,完全不需要人工干预。
如果只是简单的想爬取含有关键词的所有tweet,可参考本项目用到的配置:
# 爬虫主体
def spider(keyword, tweets):
# 启动配置
c = twint.Config()
c.Search = keyword
# 限制爬取条数
c.Limit = Limit
# 开启计数
c.Count = True
# 过滤含连接的tweet
# c.Links = "exclude"
# 只爬取热门tweet
# c.Popular_tweets = True