数据收集和准备：打造高质量的数据集

theskylife

已于 2023-11-29 09:23:02 修改

阅读量2.1k

点赞数 24

分类专栏：数据分析 20天玩转数据分析文章标签： python 数据分析数据挖掘

于 2023-11-29 09:14:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41780234/article/details/134667029

版权

本文详细介绍了数据收集的步骤，包括国内外数据源、爬虫示例，以及数据清洗、特征选择、数据组织、可视化和最佳实践。强调了数据质量的重要性，并提供了处理缺失值和异常值的方法，旨在帮助读者打造高质量的数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在开头

在数据科学的舞台上，数据被誉为新时代的燃料。但要将原始数据转化为高质量、可用于分析的数据集，需要经历一系列复杂的步骤。本篇博客将深入探讨数据的收集和准备过程，结合实际数字、场景和代码，助你在数据科学的旅程中打造高质量的数据集。

1. 数据收集

1.1 常用的数据源和网址

1.1 国外数据源和智库类网站

在数据收集的初期，选择合适的数据源至关重要。以下是一些国外常用的数据源和网址：

政府开放数据平台： data.gov
社交媒体数据： 利用 Twitter API、Facebook Graph API 等获取社交媒体数据。
科学研究数据： Kaggle Datasets
金融市场数据： 利用 Yahoo Finance API 或者 Alpha Vantage 提供的数据。

以下是收集和整理的智库网站

** 智库类网站**

韩国对外经济政策研究院： 韩国对外经济政策研究院
日本国际问题研究所： 日本国际问题研究所
亚洲论坛日本： 亚洲论坛日本
法国国际关系研究所： 法国国际关系研究所
查塔姆研究所： 查塔姆研究所
法国战略与国际关系研究所： 法国战略与国际关系研究所
英国欧洲改革中心： 英国欧洲改革中心
世界资源研究所： 世界资源研究所
彼得森国际经济研究所： 彼得森国际经济研究所
俄罗斯战略研究所： 俄罗斯战略研究所
俄罗斯科学院世界经济和国际关系研究所： 俄罗斯科学院世界经济和国际关系研究所
欧盟安全研究所： 欧盟安全研究所
美国战略与国际研究中心： 美国战略与国际研究中心
莫斯科卡内基中心： 莫斯科卡内基中心
清华-布鲁金斯公共政策研究中心： 清华-布鲁金斯公共政策研究中心
英国经济政策研究中心： 英国经济政策研究中心
韩国发展研究所： 韩国发展研究所
美国外交关系协会： 美国外交关系协会
巴塞罗那国际事务研究中心： 巴塞罗那国际事务研究中心
法国国际信息前瞻研究中心： 法国国际信息前瞻研究中心
卡内基国际和平基金会： 卡内基国际和平基金会
德国阿登纳基金会： 德国阿登纳基金会
美国企业公共政策研究所： 美国企业公共政策研究所
艾伯特基金会： 艾伯特基金会
国际透明组织： 国际透明组织
德国国际政治和安全研究所： 德国国际政治和安全研究所
英国海外发展研究所： 英国海外发展研究所
国务院发展研究中心： 国务院发展研究中心
兰德公司： 兰德公司
中国社会科学院： 中国社会科学院
中国工程院： 中国工程院
国务院参事室： 国务院参事室
中国科学技术发展战略研究院： 中国科学技术发展战略研究院
韩国发展研究院（KDI）： 韩国发展研究院（KDI）
第三世界科学院组织 TWAS ： 第三世界科学院组织 TWAS
世界银行 World Bank ： 世界银行 World Bank
欧洲研究理事会 ERC ： 欧洲研究理事会 ERC
欧盟委员会 EU ： 欧盟委员会 EU
国际科学院组织 IAP ： 国际科学院组织 IAP
国际科学院理事会 IAC ： 国际科学院理事会 IAC
清华-卡内基全球政策中心： 清华-卡内基全球政策中心
国家发改委宏观经济研究院： 国家发改委宏观经济研究院
北京大学国家发展研究院：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

theskylife 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。