![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫实践
QTT_Rookie
这个作者很懒,什么都没留下…
展开
-
HTTP属性头格式化
引言平常无论是在写爬虫或者做测试时为了省时方便,会直接复制浏览器开发工具中的属性头的源码,还有get的参数源码,但直接复制的格式是不能直接传给request.get()或request.post()的方法的,需要进行格式化成一个字典。代码def header_format(head): head_list = head.split("\n") # 得到每条属性 format_head = {} for i in head_list: # 再从每一条属性中分离出属性名原创 2021-09-11 15:31:12 · 540 阅读 · 0 评论 -
爬虫实践(三)
0x001本章是爬虫实践的最后一节,今天我们要实现的是如何实现自动转存视频到自己的百度网盘当中去。废话不多说,开始。0x002在学习了一段时间后,我们应该对request库非常熟悉了。今天所用的是request中的一些进用法。大家肯定有这种经历,在网页上登录过一次后,相当长的一段时间内不用再次登录。这是因为在浏览器中保存了一串Cookie,在服务器中有一串对应的Session。当我们再次打开这个网站时,会有http包中携带本机的Cookie,服务器经过对比,发现你原来登录过,所以就返回了主界面,原创 2020-11-14 15:34:38 · 305 阅读 · 0 评论 -
爬虫实践(二)
0x001上次咱们把电影的信息获取到了,今天在往下进行一点。0x002今天我们来获取电影的链接,通过链接列表,进入到下面的界面,可以看到界面上的网址和提取码。接下来我们就是要获取这串网址和提取码。老样子,F12走起!可以看到这个链接包含在<div id=player>中,然后我们开始爬取这个网址吧。def getbdlink(url, headers, xpthtext): print(url) htmlget = requests.get(url.原创 2020-10-31 11:27:38 · 156 阅读 · 0 评论 -
爬虫实践(一)
前言Python拥有非常多的有意思的库,让开发出一款小程序所需的精力比使用其他语言相对较少了些,这才有了这篇文章。0x001在开始编程之前,我们需要安装一些库,今天用到有request,csv,lxml,time。 其中request和lxml需要另外下载。如有需要可以在百度上搜索。0x002本人呢比较喜欢看美剧,每天都会去看影视网站有没有更新,自从我学习了爬虫,我就在想,我爬下来直接看不好吗,说干就干!首先,我们先创建个项目,添加一个fielm.py文件,让我们开始码代码吧。 ..原创 2020-10-13 21:16:34 · 359 阅读 · 0 评论