[机器学习笔记] 用Python分析 TED演讲数据(更新中)

用Python分析 TED演讲数据

首先准备TED演讲数据集,TED演讲数据集和信息可以从下面的资源获得:

https://www.datafountain.cn/datasets/11

该数据集包含2个文件:

  • ted_main.csv
    包含演讲主要信息,包括演讲标题,发言人,演讲内容,观看次数,评论数量,演讲评分等。
  • transcripts.csv
    包含演讲链接和官方英文字幕。

1)文件ted_main.csv包含17个字段,2550行,每一行代表的是一个TED演讲,具体信息如下:

序号 字段名 数据类型 字段描述
1 name Integer 演讲的正式名称(主要发言人+标题
2 title String 演讲的标题
3 description Integer 演讲内容
4 main_speaker String 主要发言人
5 speaker_occupation Integer 主要发言人的职业
6 num_speaker Integer 发言人数量
7 duration String 演讲时长,以秒为单位
8 event String 演讲所在的TED / TEDx活动
9 film_date Integer 演讲拍摄时间 (Unix timestamp)
10 published_date Integer 演讲发布时间 (Unix timestamp)
11 comments String 评论数量
12 tags String String
13 languages String 收听演讲时可选择的语言数量
14 ratings String 一个列表,里面包含许多字典,每个字典是不同的演讲评级(如鼓舞人心,引人入胜,令人惊讶等)
15 related_talks String 一个列表,里面包含许多字典,每个字典是下一个值得观看的演讲推荐
16 url String 演讲的URL链接
17 views Integer 观看数量

(2)文件transcripts.csv包含2个字段,2467行,每一行代表的是一个TED演讲,具体信息如下:

序号 字段名 数据类型 字段描述
1 url String 演讲的URL链接
2 transcript String 演讲的官方英文字幕

探索方向(持续更新

可以从以下几个方面来探索TED演讲数据集:

  • 什么类型的演讲讨论的热度最高?
  • 浏览数量高的演讲,在内容上有什么共性?
  • 在TED中最受欢迎的主题是什么?

结构分析

  • TE
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值