用Python分析 TED演讲数据
首先准备TED演讲数据集,TED演讲数据集和信息可以从下面的资源获得:
https://www.datafountain.cn/datasets/11
该数据集包含2个文件:
- ted_main.csv
包含演讲主要信息,包括演讲标题,发言人,演讲内容,观看次数,评论数量,演讲评分等。 - transcripts.csv
包含演讲链接和官方英文字幕。
1)文件ted_main.csv包含17个字段,2550行,每一行代表的是一个TED演讲,具体信息如下:
序号 | 字段名 | 数据类型 | 字段描述 |
---|---|---|---|
1 | name | Integer | 演讲的正式名称(主要发言人+标题 |
2 | title | String | 演讲的标题 |
3 | description | Integer | 演讲内容 |
4 | main_speaker | String | 主要发言人 |
5 | speaker_occupation | Integer | 主要发言人的职业 |
6 | num_speaker | Integer | 发言人数量 |
7 | duration | String | 演讲时长,以秒为单位 |
8 | event | String | 演讲所在的TED / TEDx活动 |
9 | film_date | Integer | 演讲拍摄时间 (Unix timestamp) |
10 | published_date | Integer | 演讲发布时间 (Unix timestamp) |
11 | comments | String | 评论数量 |
12 | tags | String | String |
13 | languages | String | 收听演讲时可选择的语言数量 |
14 | ratings | String | 一个列表,里面包含许多字典,每个字典是不同的演讲评级(如鼓舞人心,引人入胜,令人惊讶等) |
15 | related_talks | String | 一个列表,里面包含许多字典,每个字典是下一个值得观看的演讲推荐 |
16 | url | String | 演讲的URL链接 |
17 | views | Integer | 观看数量 |
(2)文件transcripts.csv包含2个字段,2467行,每一行代表的是一个TED演讲,具体信息如下:
序号 | 字段名 | 数据类型 | 字段描述 |
---|---|---|---|
1 |