我常用的15个数据源网站

最新推荐文章于 2022-07-26 15:16:18 发布

俊红的数据分析之路

最新推荐文章于 2022-07-26 15:16:18 发布

阅读量428

点赞数

文章标签：百度 python 大数据数据分析数据挖掘

版权

前面介绍过实用的效率小工具，真的帮了我很多忙，这次给小伙伴们再种草一些数据源网站。

现在有很多免费的数据可以供使用分析，不过很少有人能找的到，或者没能力找，这就是所谓的信息差吧。其实数据获取分为两方面，一是“拿来的”数据，也就是现成的；二是“爬来的”数据，这种一般通过爬虫等手段去采集数据。

“拿来的”数据可以在各大官方平台或者社区去找，一般各行各业都会有自己的数据库。我常用的数据网站有以下这些：

百度指数：百度搜索汇总的数据，能看到各种关键词的搜索热度趋势，优点数据量大，能反映真实的话题热度变化，适合做需求洞察、用户画像、舆情监测、市场分析。

百度指数规则，是以网民在百度的搜索量为数据基础，以关键词为统计对象，科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。

微信指数：微信生态的大数据，反映关键词热度，和百度指数类似。但微信指数数据来源微信各种内容渠道，包括搜一搜、视频号、公众号等，适合做微信生态人群画像、内容推广、舆情监控的研究。

在计算关键词指数的过程中，微信指数主要关注：

Google Trends：和百度指数类似的产品，基于google生态汇总的大数据。比百度数据来源更丰富也更广泛，包含了google、youtube等，毕竟是全球应用。缺点是对国内搜索分析的指导意义不大，还是百度指数更具指导意义。

微博指数：微博内容提及量、阅读量、互动量加权得出的综合指数，优点比较有时效性，而且数据基数大，可以实时反映热度变化情况，适合实时捕捉当前社会热点事件、热点话题等，快速响应舆论走向等。

这种数据包含了网站、APP、自媒体账号等监测数据，大多是商业付费类

Alexa：用于查询全球网站排名和流量的平台，可以看到PV、UV、排名、区域分布等信息。

新榜：新媒体专属的数据平台，用于查看抖音、快手、公众号、小红书等平台KOL账号的数据。数据包括了粉丝、浏览、互动、声量等，一般用于广告投放监测、自媒体数据运营等。

猫眼数据：影视相关数据。汇总了电影票房、网播热度、电视收视等数据，适合做票房预测、节目热度监测。

艾瑞指数：APP、Web、手机等排行榜数据，包括各大移动设备装机指数、APP热度指数、PC Web热度指数、网络广告指数等等，适合做广告营销投放等。

新浪财经数据中心：新浪财经大数据，汇总了股票、基金、期货、黄金、货币等各种财经数据，种类很齐全，应该有数据接口。

Wind：国内比较早的金融数据服务商，数据种类最齐全，而且有各种金融分析工具，也支持Python、R等量化分析。但Wind很贵，个人很难承担的起。

Tushare：免费的金融数据库，支持Python接口，数据也非常齐全，包含了股票、基金、期权、债券、外汇、公司报表等各种财经数据。只要你会用Python，就可以调用里面的各种数据，非常便捷。

这种一般包含政府开放数据、统计数据，以及各种民生数据。

国家统计局：最权威的国内宏观数据网站，包括人口、经济、农业等等。

上海公共数据开放平台：上海市各行各业的免费数据，对公众开放下载，非常适合做城市规划分析。

其他城市官方数据：

这一类数据适合做机器学习、统计分析、算法研究等，是学术界、工业界用于数据驱动业务典型数据。

kaggle：全球最大的数据科学比赛平台，也是google旗下的产品。kaggle拥有丰富的数据集和各种解决方案，适合对数据感兴趣的小伙伴去研究学习。

天池：阿里云里面的数据比赛平台，也拥有很多比赛数据，质量相对较高。

- END -

对比Excel系列图书累积销量达15w册，让你轻松掌握数据分析技能，可以在全网搜索书名进行了解选购：

关注