数据采集
飞奔的猫
万花丛中过,片叶不沾身,唯有程序员一路终到彼岸!
展开
-
江湖小白之一起学Python (十三)开发视频网之最终篇
话不多说,干就完了!今天我们来了结下视频网这部分,上篇实现了获取真实的m3u8的视频地址,那这篇我们就来实现如何下载m3u8文件,如何合并成一个整的并且支持web播放的MP4文件,其实这里也有很多文章讲过这部分功能的实现,不过在合并ts文件成MP4的时候,大部分使用的系统的copy命令,但是这样生成的MP4是无法在web网页中播放的,跟我之前序章里的思路是一样,还得通过ffmpeg在转成H264视频编码格式,那还不如直接就用ffmpeg合并成MP4,合并后的文件就支持web网页播放。所以下面我们就来..原创 2020-05-26 17:48:37 · 435 阅读 · 0 评论 -
江湖小白之一起学Python (十一)开发视频网之抓取信息并展示
微风徐来,我情不自禁的摸了摸我油亮的头顶,嘴里哼着哥哥的风继续吹,思考下今天这章要写的内容,绞尽脑汁,为数不多的头发又掉了几根……从以前的英俊帅气慢慢朝着土肥圆在进化,哎,生活拖累了我啊!上篇我们只是说了下web框架的搭建,那今天我们就开始使用flask的render_template的模块,实现加载模板页面将抓取的信息通过网页的形式来展示,下面我们直接上代码讲解,首先在上篇的video文件夹中创建一个__init__.py,你命名为其它的也可以,只是路径指向的时候要对应,在这个文件里,我们就把爬取..原创 2020-05-22 12:28:02 · 635 阅读 · 0 评论 -
江湖小白之一起学Python (十)开发视频网之搭建web框架
开场来个段子:以前不离不弃的叫夫妻,现在不离不弃的是手机,一机在手,天长地久。机不在手,魂都没有,手机天天不离手!其实古人早已了然,并专门设置了一个成语:机不可失!此机非彼机,电脑在手,天下我有,好了,又到了敲代码的时间了,今天就开始一步一步来实现利用python+flask开发一个视频网站,大家有时间可以去搜索下,一般python开发网站用得最多的就是Django了, 我有点嫌弃它不太灵活轻量,所以我选择了flask来搭建网站,下面我们直奔主题,要使用flask框架我们先得安装这个库,在cmd中执原创 2020-05-21 17:03:20 · 474 阅读 · 0 评论 -
江湖小白之一起学Python (八)进程池的运用
学习使我快乐,接着上篇的讲,上篇我们简单了介绍了多线程的运用,其实在python中多线程是假的多线程,为什么这么说呢,因为python的解释器在同一时刻只允许一个线程执行,不管你电脑有几个核,单位时间多个核只能跑一个线程,然后时间片轮转,其实可以理解为在python的多线程是单核多线程,没有完全利用电脑多核的资源,根本的原因是由全局解释器锁(GIL)引起的,要真正利用多核,除非重写一个不带GIL的解释器,有兴趣的童鞋可以多线程写个无限循环压力测试看看CPU的运行情况。what? 那我们在pyth..原创 2020-05-18 17:27:28 · 318 阅读 · 0 评论 -
江湖小白之一起学Python (七)多线程的运用
清晨起来,阳光明媚,不由自主的看看了自己的私房钱……目前疫情还未结束,不过看大家基本都回归了正常了的生活,再大的疫情或者困阻都阻挡我不了我对上班的热情(向钱进~~!)今天我们就来说下,爬虫中常用的多线程,多进程,协程的运用,我们这里就先来研究下多线程,这时候小白可能会问,啥是多线程啊,有啥用啊?客官勿慌,请听在下给你娓娓道来……我们就拿一个理发店来说,理发店有4个理发师傅,由于跟我一样上进的人比较多,一堆人早早的就起来排队理发了,但这个时候就只有1个师傅在店里,那我们这一堆人就排队等着这个师原创 2020-05-15 12:42:19 · 252 阅读 · 0 评论 -
江湖小白之一起学Python (六)爬虫中session及cookie的运用
这几天自己有个小需求,忙着写爬取知乎的代码,所以耽误了下,不过也正好来讲一下爬虫中关于session,cookie的运用,因为这个在爬取需要登录或者cookie值的时候会用到,其实方法挺简单的,这里我们使用常用的http里的cookiejar:from http import cookiejar之前我们都是用的requests库来请求url地址的,那我还是已这个来讲解,关于什么是cookie,什么是session,我就不在这里一一说明了,有兴趣的童鞋可以看下基础,那下面就说下cookiejar的用原创 2020-05-14 15:18:06 · 785 阅读 · 0 评论 -
2020版python实现模拟登录知乎(包含自动过验证码) (上)
为什么要写这篇呢,因为最近想在知乎上采集一点数据(真的只是一点点~~!),但爬取的时候没有登录没有cookie值你是抓取不到的,这里可能有人会问,那直接从浏览器贴一下cookie值不就好了嘛,NO!NO!NO!,对于像我这里脱离了低级趣味的人,是不削这种做法的,我要发挥lai精神,彻底解放双手,点一点手指,爬尽万千信息……就是这种感觉……,闲话不多说,我们来整理下思路,额,飘了一下突然发现不知道从哪里下手了……不管那么多,先打开知乎网站看下:https://www.zhihu.com/嗯,观原创 2020-05-11 19:29:24 · 1913 阅读 · 8 评论 -
2020版python实现模拟登录知乎(包含自动过验证码) (下)
来吧,既然已经开了头,我们还是要完结一下这个过程,抽个空,接着上篇的来讲一下……这里有个小插曲,我为了方便,看了个某位革命同胞提取的加密的js方式,觉得这用比较简单方便,不需要修改JS中的内容,于是就这样写了下:保持从加密JS里copy出来的代码不用修改,就用上面2个方法代理了在NODEjS(V8)中没有window的方法,But……万万没想到就是这个方法搞了几个小时的时间,因为在浏览器中调试这段代码和知乎上加密后的结果一样的,但是在python中加密后结果死活不一样,最后调试就是这个原因引原创 2020-05-13 20:43:49 · 1579 阅读 · 3 评论