twitter数据集_推特宠物数据整理及分析

8f795f1a7a16e4c825f39680f3d5b13f.png

都说世界上的大部分数据都是脏数据和杂乱数据,数据清洗占据了数据分析师80%的时间。今天我就来练习一下数据清洗,在对课程项目提供的推特宠物数据进行清洗后再进行一个简单的数据分析。

背景

今天我将要整理 (以及分析和可视化) 的数据集是推特用户 @dog_rates 的档案, 推特昵称为 WeRateDogs。WeRateDogs 是一个推特主,他以诙谐幽默的方式对人们的宠物狗评分。这些评分通常以 10 作为分母。但是分子则一般大于 10:11/10、12/10、13/10 等等。为什么会有这样的评分?因为 "They're good dogs Brent." WeRateDogs 拥有四百多万关注者,曾受到国际媒体的报道。

WeRateDogs 下载了他们的推特档案,并通过电子邮件发送给优达学城,专门为本项目使用。这个档案是基本的推特数据(推特 ID、时间戳、推特文本等),包含了截止到 2017 年 4 月 1 日的 5000 多条推特。

一、数据收集

根据项目要求收集3个数据集,twitter-archive-enhanced.csv(手边文件)、image-predictions.tsv(网上文件下载)、tweet_json.txt(手边文件)。

二、数据评估

评估数据有两种方式:目测评估和编程评估。

  • 目测评估

目测评估很简单。在你喜欢的软件应用程序(Google 表格、Excel、文本编辑器等)中打开数据,滚动浏览,寻找质量和条理问题,让你熟悉数据集及其意义。

  • 编程评估

编程评估往往比目测评估更有效。编程评估的一个简单例子是 pandas 的 info 方法,这个方法为我们提供了 DataFrame 的基本信息,比如条目数、列数、每列的类型、是否存在缺少值等。

以下是经常会在 pandas 中使用的编程评估方法:

  • .head (DataFrame 和 Series)
  • .tail (DataFrame 和 Series)
  • .sample (DataFrame 和 Series)
  • .info (仅限于 DataFrame)
  • .describe (DataFrame 和 Series)
  • .value_counts (仅限于 Series)
  • 各种索引和筛选数据的方法 (.loc and bracket notation with/without boolean indexing, also .iloc)

收集上述三个数据集之后,我使用目测评估和编程评估的方式,对数据进行质量和清洁度的评估,最终列出所查出的所有质量问题和清洁度问题。

质量问题:

1、处理twitter_archive_enhanced表格中in_reply_to_status_id、in_reply_to_user_id这两列的缺失值;

2、去除转发的数据(项目要求);

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值