twitter数据集_推特宠物数据整理及分析

最新推荐文章于 2024-03-13 10:12:47 发布

VIP文章 weixin_39807954

最新推荐文章于 2024-03-13 10:12:47 发布

阅读量892

点赞数

文章标签： twitter数据集

都说世界上的大部分数据都是脏数据和杂乱数据，数据清洗占据了数据分析师80%的时间。今天我就来练习一下数据清洗，在对课程项目提供的推特宠物数据进行清洗后再进行一个简单的数据分析。

背景

今天我将要整理 (以及分析和可视化) 的数据集是推特用户 @dog_rates 的档案, 推特昵称为 WeRateDogs。WeRateDogs 是一个推特主，他以诙谐幽默的方式对人们的宠物狗评分。这些评分通常以 10 作为分母。但是分子则一般大于 10：11/10、12/10、13/10 等等。为什么会有这样的评分？因为 "They're good dogs Brent." WeRateDogs 拥有四百多万关注者，曾受到国际媒体的报道。

WeRateDogs 下载了他们的推特档案，并通过电子邮件发送给优达学城，专门为本项目使用。这个档案是基本的推特数据（推特 ID、时间戳、推特文本等），包含了截止到 2017 年 4 月 1 日的 5000 多条推特。

一、数据收集

根据项目要求收集3个数据集，twitter-archive-enhanced.csv（手边文件）、image-predictions.tsv（网上文件下载）、tweet_json.txt（手边文件）。

二、数据评估

评估数据有两种方式：目测评估和编程评估。

目测评估

目测评估很简单。在你喜欢的软件应用程序（Google 表格、Excel、文本编辑器等）中打开数据，滚动浏览，寻找质量和条理问题，让你熟悉数据集及其意义。

编程评估

编程评估往往比目测评估更有效。编程评估的一个简单例子是 pandas 的 info 方法，这个方法为我们提供了 DataFrame 的基本信息，比如条目数、列数、每列的类型、是否存在缺少值等。

以下是经常会在 pandas 中使用的编程评估方法：

.head (DataFrame 和 Series)
.tail (DataFrame 和 Series)
.sample (DataFrame 和 Series)
.info (仅限于 DataFrame)
.describe (DataFrame 和 Series)
.value_counts (仅限于 Series)
各种索引和筛选数据的方法 (.loc and bracket notation with/without boolean indexing, also .iloc)

收集上述三个数据集之后，我使用目测评估和编程评估的方式，对数据进行质量和清洁度的评估,最终列出所查出的所有质量问题和清洁度问题。

质量问题：

1、处理twitter_archive_enhanced表格中in_reply_to_status_id、in_reply_to_user_id这两列的缺失值；

2、去除转发的数据（项目要求）；

<

最低0.47元/天解锁文章

weixin_39807954

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
twitter数据集_推特宠物数据整理及分析

都说世界上的大部分数据都是脏数据和杂乱数据，数据清洗占据了数据分析师80%的时间。今天我就来练习一下数据清洗，在对课程项目提供的推特宠物数据进行清洗后再进行一个简单的数据分析。背景今天我将要整理 (以及分析和可视化) 的数据集是推特用户 @dog_rates 的档案, 推特昵称为 WeRateDogs。WeRateDogs 是一个推特主，他以诙谐幽默的方式对人们的宠物狗评分。这些评分通常以 10 ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。