首先需要知道b站视频标题在哪里
F12 可以查看,发现在元素的list-box处
使用
document.getElementsByClassName('list-box')[0]
可查看
然后需要进一步把title 提取出来,可使用代码:
var result = '';
var content = document.getElementsByClassName('list-box')[0].querySelectorAll('li');
for (var i = 0; i< content.length; i++){
temp = content[i].innerText.split('\n');
if (temp[temp.length-1].length < 6){
temp[temp.length-1] += ".00"
}
temp.join('\t')
result += temp;
result += '\n';
}
console.log(result.replace(/,/g, '\t'))
引用:
https://sspai.com/post/77326
然后可以复制文本到excel ,后续进行文本处理
使用perl命令
需要下载perl解释器 文件
下载地址:
https://platform.activestate.com/tangxing806/ActivePerl-5.28/distributions
按操作命令一步一步完成就好
然后perl -v 检验是否安装完成
然后发现,使用不了引用网页的命令
目标是:
将类似 “1-0 互联网和IP简介” 这样的字符串替换成 “互联网和IP简介”,只保留 后面的字符串部分
去找代码,找到如下:
perl -pe 's/^\d+-\d+\s+//g' input.txt > output.txt
因为是windows系统 发现不行
所以只能用文件导入。
在Windows系统上,可以尝试使用Perl脚本来实现类似的替换操作。
创建一个名为 replace.pl 的Perl脚本文件,文件内容如下:
while (<>) {
s/^\d+-\d+\s+//g; # 替换数字-数字形式及其后的空格
print;
}
然后,在命令提示符中运行以下命令,将输入文件中的内容处理后输出到另一个文件:
perl replace.pl input.txt > output.txt
请将 input.txt 替换为你的实际输入文件名(我这里是useit.txt作为输入)
记得确保 replace.pl 文件中的脚本内容正确处理了需求
成功!