我常用的15个数据源网站

前面介绍过实用的效率小工具,真的帮了我很多忙,这次给小伙伴们再种草一些数据源网站。

现在有很多免费的数据可以供使用分析,不过很少有人能找的到,或者没能力找,这就是所谓的信息差吧。其实数据获取分为两方面,一是“拿来的”数据,也就是现成的;二是“爬来的”数据,这种一般通过爬虫等手段去采集数据。

“拿来的”数据可以在各大官方平台或者社区去找,一般各行各业都会有自己的数据库。我常用的数据网站有以下这些:

搜索指数类

百度指数:百度搜索汇总的数据,能看到各种关键词的搜索热度趋势,优点数据量大,能反映真实的话题热度变化,适合做需求洞察、用户画像、舆情监测、市场分析。

百度指数规则,是以网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。

27bfd2fffe88e8f15f8500947a79d24c.png

微信指数:微信生态的大数据,反映关键词热度,和百度指数类似。但微信指数数据来源微信各种内容渠道,包括搜一搜、视频号、公众号等,适合做微信生态人群画像、内容推广、舆情监控的研究。

在计算关键词指数的过程中,微信指数主要关注:

  • 关键词相关内容的受欢迎程度。

  • 关键词在相关内容中的重要程度。

5976a246fb4848f54528bc8d69919e6f.png

Google Trends:和百度指数类似的产品,基于google生态汇总的大数据。比百度数据来源更丰富也更广泛,包含了google、youtube等,毕竟是全球应用。缺点是对国内搜索分析的指导意义不大,还是百度指数更具指导意义。

be823e25337a0cbeb6939fe5e2abc463.png

微博指数:微博内容提及量、阅读量、互动量加权得出的综合指数,优点比较有时效性,而且数据基数大,可以实时反映热度变化情况,适合实时捕捉当前社会热点事件、热点话题等,快速响应舆论走向等。

9541738e1d8864a69494b1c3bdc5ac5c.png

媒体数据

这种数据包含了网站、APP、自媒体账号等监测数据,大多是商业付费类

Alexa:用于查询全球网站排名和流量的平台,可以看到PV、UV、排名、区域分布等信息。

4c1cc94168c7e9729257f13b6b019616.png

新榜:新媒体专属的数据平台,用于查看抖音、快手、公众号、小红书等平台KOL账号的数据。数据包括了粉丝、浏览、互动、声量等,一般用于广告投放监测、自媒体数据运营等。

73b46b609706a4f9ec2195a3224396d9.png

猫眼数据:影视相关数据。汇总了电影票房、网播热度、电视收视等数据,适合做票房预测、节目热度监测。

2cedd58740763e0160e388994151685f.png

艾瑞指数:APP、Web、手机等排行榜数据,包括各大移动设备装机指数、APP热度指数、PC Web热度指数、网络广告指数等等,适合做广告营销投放等。

c33009f703f09615b7950502411de3ae.png

金融数据

新浪财经数据中心:新浪财经大数据,汇总了股票、基金、期货、黄金、货币等各种财经数据,种类很齐全,应该有数据接口。

80e733d9c22ea1effc092e319fc3538c.png

Wind:国内比较早的金融数据服务商,数据种类最齐全,而且有各种金融分析工具,也支持Python、R等量化分析。但Wind很贵,个人很难承担的起。

f3854c5fe52ab73bfa2388d5e42d94dd.png

Tushare:免费的金融数据库,支持Python接口,数据也非常齐全,包含了股票、基金、期权、债券、外汇、公司报表等各种财经数据。只要你会用Python,就可以调用里面的各种数据,非常便捷。

fce1e3c35a2917c2b176915bd8535c2e.png

社会数据

这种一般包含政府开放数据、统计数据,以及各种民生数据。

国家统计局:最权威的国内宏观数据网站,包括人口、经济、农业等等。

ace4aff1012834cac2d300339fb5d104.png

上海公共数据开放平台:上海市各行各业的免费数据,对公众开放下载,非常适合做城市规划分析。

592fe129d0314711b6f500934c06f3f4.png

其他城市官方数据:

2659c2f161328b0a811dd103f8448d3d.png 5733ff620c84c3b16839910fcb9b5a95.png

数据科学研究数据

这一类数据适合做机器学习、统计分析、算法研究等,是学术界、工业界用于数据驱动业务典型数据。

kaggle:全球最大的数据科学比赛平台,也是google旗下的产品。kaggle拥有丰富的数据集和各种解决方案,适合对数据感兴趣的小伙伴去研究学习。

951d76781fcdf433e5cf7c1d528ec0eb.png

天池:阿里云里面的数据比赛平台,也拥有很多比赛数据,质量相对较高。

74daeb93ebe60f7b5ba1548c54447b97.png

b0fa827ec25178d17bb69baeffd787e0.gif

END -

 
 
对比Excel系列图书累积销量达15w册,让你轻松掌握数据分析技能,可以在全网搜索书名进行了解选购:
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark常用数据源格式有以下几种: 1. CSV(逗号分隔值):CSV是一种常见的数据格式,每行数据由逗号分隔。Spark可以通过使用csv()函数加载CSV文件,并将其转化为DataFrame进行处理和分析。 2. JSON(JavaScript对象表示法):JSON是一种轻量级的数据交换格式,具有易于阅读和编写的特点。Spark可以使用json()函数将JSON文件加载成DataFrame。 3. Parquet:Parquet是一种列式存储格式,它能够提供更高的压缩率和更好的查询性能。Spark可以使用parquet()函数加载Parquet文件,并对其进行处理和分析。 4. ORC(Optimized Row Columnar):ORC是一种优化的行列存储格式,它在查询性能和压缩率方面表现优秀。Spark可以使用orc()函数加载ORC文件,并对其进行处理和分析。 5. Avro:Avro是一种数据序列化系统,它使用JSON格式定义数据结构,支持动态模式演化。Spark可以使用avro()函数加载Avro文件,并将其转化为DataFrame进行处理和分析。 6. JDBC(Java数据库连接):Spark可以通过JDBC连接不同类型的关系型数据库,如MySQL、PostgreSQL、Oracle等。可以使用Spark的JDBC连接器读取和写入关系型数据库中的数据。 7. Hadoop文件系统(HDFS):Spark可以直接读取和写入Hadoop分布式文件系统中的文件,如HDFS、S3等。可以使用Spark的文件系统API来操作这些文件。 总之,Spark支持各种常见的数据源格式,可以通过不同的API函数来加载和处理这些数据,以及与其他数据源进行交互。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值