【python】youtube trending 热点分析 - 什么因素与视频流行有关?

该博客探讨了利用Kaggle上的YouTube Trends数据,分析不同国家2017-2018年间视频流行趋势,研究了view、likes、dislikes、comments之间的关系,发现视频类别流行程度与时间不成正比,且英国的trending视频在同等观看量下获得的likes和dislikes较少。此外,还揭示了dislikes有时会快速增加,呈现出两种明显不同的模式。
摘要由CSDN通过智能技术生成

1. 问题概述和数据来源

  • YouTube Trends
    YouTube Trends是油管提供的流行视频推荐列表,每日更新,但并不是个性化推荐,每个国家的推荐列表是统一的。
  • Dataset
    使用的数据是在Kaggle上找到的美/英/德/法/加拿大 五个国家2017/11/14到2018/06/14每天的trending video列表
  • 思考的问题
    我觉得这个数据集有趣的地方在于多维,时间、空间(国家)、不同youtuber/topics、不同category 的内容以及指标(view, likes, dislikes, comments)。可以探究view, likes, dislikes, comments之间的关联,热点youtuber、topics热度趋势(还可以结合Googletrends看YouTube热点与全网搜索热点的吻合程度,超前/滞后程度),以及不同国家热点的区别 (geographic differences)。
## 2. 数据预处理 ##
import pandas as pd
import json 

###从csv导入数据,合并,添加国家标签###
df=pd.read_csv('CAvideos.csv')
df=df.assign(country='CA')
list_cou=['DE','FR','GB','US']
for name in list_cou:
    temp=pd.read_csv(name+'videos.csv')
    temp=temp.assign(country=name)
    df=pd.concat([df,temp])

###日期格式处理###
df['trending_date'] = pd.to_datetime(df['trending_date'], format='%y.%d.%m')  
df.trending_date = df.trending_date.dt.date   
df['publish_time'] = pd.to_datetime(df['publish_time'], format='%Y-%m-%dT%H:%M:%S.%fZ')
df=df.assign(publish_date=df['publish_time'].dt.date)
df['publish_time'] = df['publish_time'].dt.time
category名称另外保存在json文件中,读取添加过程如下:
###导入category名称###
df=df.assign(cat_name='a')
for name in list_cou:
    id_to_category = {}
    file=name+'_category_id.json'
    with open(file, 'r') as f:
        data=json.load(f)
        for category in data['items']:
            id_to_category[category['id']] = category['snippet']['title']
    print(id_to_category)
###实际上每个国家的category id-name 字典是一样的
df['category_id'] = df['category_id'
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值