爬虫
mohana48833985
这个作者很懒,什么都没留下…
展开
-
python 爬虫 获取window\.__INITIAL_STATE__=的信息
import requestsimport reimport jsonr = requests.get(url)a = re.search(r"window\.__INITIAL_STATE__=(.*?);", r.text).group(1)print(json.loads(r))要点:从window\.__INITIAL_STATE__=到;之间的数据都是json数据。json.loads会自动将false转为False, true转为True参考:https://www.5axxw原创 2021-12-30 14:43:07 · 2868 阅读 · 0 评论 -
爬虫 selector从html简单地提取dict字典数据,从字符串提取字典
subtitle字符串的开头如下:结尾如下:现想提出开头和结尾不属于字典的部分。null = None; false = False; true = True # 防止eval报错未定义sub_dic = eval(subtitles[subtitles.index('{'):-subtitles[::-1].index(';}')-1])subtitles.index('{')提取第一个{所在索引的位置,-subtitles[::-1].index(';}')-1提取最后一个'}'原创 2021-07-29 14:35:17 · 718 阅读 · 0 评论 -
python 制作srt字幕
从B站下载的字幕文件,转为观看视频软件可插入的形式。参考链接:Python实现json字幕转换为srt字幕思路从json提取字典列表–>转为dataframe–>秒转为时分秒–>写入文件。import requests, reimport pandas as pdimport numpy as npsubtitle_url = 'https://i0.hdslb.com/bfs/subtitle/e837950453ea3e4f6e81a5709449af173d2604dc原创 2021-07-28 16:51:06 · 2669 阅读 · 0 评论 -
爬取微信某个公众号的视频,AES-128 key iv m3u8,ts视频解密
class GetBear(): def __init__(self, file_path=r'D:\User\Videos'): self.url = '' # 精品课程的url # 第一次登陆的表单 self.forms = {"bizData[type]": "1","bizData[page_size]": "1000",} # 第一次登陆的cookie self.headers = {'Cookie': 'H原创 2021-03-27 00:02:45 · 5238 阅读 · 2 评论 -
爬取B站多P视频
import requestsfrom parsel import Selectorimport jsonimport osclass GetBv(): def __init__(self, bvid, page=1): ''' bvid:视频号 eg:BV1hE411N7q2,str page: P几的视频,默认为1 int ''' self.bvid = bvid self.page =原创 2021-03-17 11:38:19 · 3733 阅读 · 6 评论 -
爬取钉钉直播回放
朋友给我分享了一个钉钉直播回放的网址,打开只有这个界面,用手机钉钉软件打不开这个界面,所以我想把视频爬取下来,然后用手机看。第一 找到m3u8文件的网址,教程: 超链接日后放上第二 下载ffpmeg,下载教程: 链接日后放上第三 上代码import requestsimport osclass Dingding(): ''' url: m3u8文件网址 请提前下载好ffmpeg应用 video_name: 视频名称 ''' de原创 2020-10-20 22:31:55 · 2664 阅读 · 0 评论