10万+的标题怎么取?YouTube标题首词与播放量有什么关系?


全文共1191字,预计学习时长6分钟

 

图源:unsplash

正则表达式是定义文本中搜索模式的特殊字符序列。“re.findall()”是Python中最基本的正则表达式函数之一,提取字符串表达式的开头。本文将用这个函数告诉你,YouTube视频标题与播放量之间的关系。

 

下面开始吧!

 

首先,导入python正则表达式模块“re”:

import re

假设有以下字符串:

test_string1=  Python is Amazing!

可将表达式r“^w+”与字符串一并传递至“re.findall”,这将返回输入字符串的开头:

regex_1 =re.findall(r"^w+",test_string1)print(regex_1)

                           

在表达式r“^w+”中,字符“^”对应字符串开头,而“w+”查找字符串中的字母数字字符。

如果去掉“^”,会得到:

regex_1 =re.findall(r"w+",test_string1)print(regex_1)

试提取另一个字符串示例的开头:

test_string2=  Java is Amazing!

图源:unsplash

现在,应用“re.findall()”查找该字符串的第一个单词:

regex_2 =re.findall(r"^w+",test_string2)print(regex_2)

 

接下来,考虑一个更实际的场景。假设有一个YouTube视频标题列表和相应的YouTube观看次数。我们可能对分析视频标题的第一个单词和相应视频观看次数之间的关系感兴趣。考虑以下标题/观看次数元组列表:

youtube_titles= [("How to Tell if We re Beating COVID-19", 2200000), ("ExtremeCloset Clean Out",326000), ("This is $1,000,000 inFood",8800000), ("How To Tell If Someone Truly Loves You ",2800000), ("How to Tell Real Gold from Fake", 2300000),("Extreme living room transformation ", 25000)]

可以通过以下方式找到每个标题的第一个单词:

for titlein youtube_titles:   print(re.findall(r"^w+",title[0])[0])

可以将这些值添加到列表中:

first_words= []for title in youtube_titles:   first_words.append(re.findall(r"^w+",title[0])[0])print(first_words)

还可以将观看次数附加到列表中:

first_words= []views = []for title in youtube_titles:   first_words.append(re.findall(r"^w+",title[0])[0])    views.append(title[1])

然后,可以创建视频首字值和视频观看次数的数据框:

importpandas as pddf = pd.DataFrame({ first_words : first_words,  views :views})print(df)

之后可以对每个标题首词进行分组,并计算每个标题首词的平均观看次数:

df =df.groupby( first_words )[ views ].mean()print(df)

按降序方式对这些值进行排序:

df =df.groupby( first_words )[ views ].mean().sort_values(ascending = False)print(df)

假设这些结果来自一个足够大的数据集(比如有数千个标题和观看次数),这种类型的分析可以帮助我们选择最佳的YouTube视频标题。

 

图源:unsplash

本文讨论了如何使用python正则表达式模块中的“re.findall()”函数。为提取每个字符串的第一个单词,笔者将该函数应用于两个简单的字符串。然后,考虑了一个实际用例,使用该函数提取YouTube视频标题的第一个单词,并计算第一个单词对应的平均观看次数。

10万+的标题,或许就是这么来的。

 


推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:刘玲君、胡家瑞

相关链接:

https://towardsdatascience.com/regular-expressions-in-python-7c991daab100

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值