twitter 爬虫学习记录

最新推荐文章于 2024-11-03 10:31:28 发布

左小慢

最新推荐文章于 2024-11-03 10:31:28 发布

阅读量5.2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_33793599/article/details/80406334

版权

学习数据获取的时候，看了很多的帖子，但是自己还未成功，现在根据师姐的指导，记录下自己的学习过程，避免忘记。

1.在Twitter上新建应用

网址：https://apps.twitter.com/app/new
这里写图片描述
创建好之后的网址（记录下，自己总是创建完就找不到了）：https://apps.twitter.com/app/15264546

创建好了就可以获取应用的信息，包括Consumer key和Consumer secret。并generate access token，将这四个数据保存下来。

根据师姐的建议，依据她的博客来复现一下twitter爬虫过程。
————

2.Twitter本地项目的搭建

接下来可以借助twitter api 进行twitter 抓取，现有的twitter api的python版本很多，这里主要介绍tweepy 以及python-twitter。

在cmd中，通过pip install tweepy/python-twitter的命令，进行库的安装。
（如果电脑上之前装过，但是版本过早，可以先pip uninstall **在重新安装）
代码片段：

import twitter
import optparse
import sys


def print_safe(string):
    """
    Format a string for safe printing
    """
    return string.encode('cp437', 'xmlcharrefreplace')


def print_tweet(tweet):
    """
    Format and print `tweet`.
    """
    print("@" + pr