![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
wangjinyu124419
这个作者很懒,什么都没留下…
展开
-
Python subprocess.run 执行ffmpeg卡主无响应
跟requests库一样,加一个timeout参数即可,超时自动报错。subprocess.run(command,timeout=60)原创 2022-05-12 21:46:53 · 1096 阅读 · 0 评论 -
ffmpeg下载直播流视频测试,2022.05可用
ffmpeg -i https://test.spotme.com/hls_benchmark_stream/index.m3u8 -c copy dump.flv原创 2022-05-09 17:20:24 · 1037 阅读 · 0 评论 -
Python 获取JavaScript变量,JavaScript转Python
以百度未登录状态下为例:import js2pyimport requestsfrom lxml import etreeurl = 'https://www.baidu.com'headers = { 'Connection': 'keep-alive', 'Cache-Control': 'max-age=0', 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows .原创 2021-01-28 20:07:58 · 2330 阅读 · 0 评论 -
selenium实现无限滚动、循环滚动到底
今天做python动态网页觉得构造请求太麻烦,而网站几次滚动就能下拉到底,所以想着直接用selenium连续下拉滚动到底,然后直接一把梭。没搜到太好太直接的方案。边做边试大概实现了功能。核心代码就这么几句,思路就是用scrollBy一直下拉滚动条,然后scrollTop会一直变化,当scrollTop不变时,说明就到底了。跳出循环即可。import timefrom lxml import etreefrom selenium import webdriverdriver =webdri原创 2020-05-14 22:40:53 · 5832 阅读 · 4 评论 -
复制chrome请求头以及Copy as cURL直接转成python代码
python爬虫经常需要服务浏览器请求头,之前都是用pycharm批量替换。今天想看看有啥方便的方法没。结果发现了更超出预期的东西。chrome的Copy as cURL 和curl to python。下图是Copy as cURL,python去动态网页时经常需要寻找真正的结构然后利用参数构造请求。以https://fr.news.yahoo.com/politique/这个网站为例复制过来是这么一坨:curl 'https://fr.news.yahoo.com/_td/api/原创 2020-05-14 22:26:31 · 12499 阅读 · 4 评论 -
python利用requests库模拟登录,过程解析
之前尝试用requests直接请求登录失败了,都是直接用selenium简单粗暴的登录。今天看了看大佬《网络爬虫开发实战》模拟登录部分,又收获不少。利用requests模拟登陆的关键:第一:是要找到相应的请求地址第二:找到要请求头中对应的提交表单Form Data的各种字段,以及他们的值第一步:是要找到相应的请求地址拿豆瓣为例,在登录界面时别输入用户名密码或者输入错误的用户...原创 2019-11-14 23:42:38 · 1430 阅读 · 0 评论