![](https://img-blog.csdnimg.cn/20190530215148381.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Glidedsky爬虫挑战
本栏主要是对http://glidedsky.com/爬虫网站刷题进行解析,涉及到数学知识、逻辑推理。
Rambo.Fan
眼中有阳光,风雨不阻行
展开
-
黑板客闯关的第一关
挑战地址:http://www.heibanke.com/lesson/crawler_ex00/挑战难度:★☆☆☆☆☆☆☆☆☆截图:这个难度不大:问题分析:先拿到页面的数字,可以通过正则表达式匹配,然后重新组织url。直接上代码:#coding:utf-8import requestsfrom bs4 import BeautifulSoup as bf...原创 2019-07-20 13:21:00 · 422 阅读 · 0 评论 -
python爬虫设置代理
在反爬虫策略中经常用到代理proxy = { 'http': 'http://' + ip, 'https': 'https://' + ip}print(proxy)p = requests.get('http://myip.ipip.net/', headers=head, proxies=proxy,timeout = 3)ip为ip+端口,类似于:127.0.0...原创 2019-06-19 12:38:29 · 6542 阅读 · 0 评论 -
黑板客闯关的第三关
挑战地址:http://www.heibanke.com/lesson/crawler_ex02/这一关依旧是猜密码这一关开始前要先注册挑战难度:★★☆☆☆☆☆☆☆☆难度不大:直接上代码:#coding:utf-8import requestsfrom bs4 import BeautifulSoup as bfimport reimport timehea...原创 2019-07-20 13:23:54 · 291 阅读 · 0 评论 -
黑板课闯关的第二关
挑战地址:http://www.heibanke.com/lesson/crawler_ex01/这一关是猜密码挑战难度:★★☆☆☆☆☆☆☆☆难度不大,穷举:上代码:#coding:utf-8import requestsfrom bs4 import BeautifulSoup as bfimport reimport timeheader = {'Host':...原创 2019-07-20 13:21:24 · 322 阅读 · 0 评论 -
Python通过发邮件通知自己电脑被入侵
我对IT技术有着狂热的追求,虽然现在很渣,但是我有颗钻研的心,例外我还比较喜欢看小说,相信看过http://www.biquge.info/11_11851/‘>最强黑客的人对里面的黑客的技术佩服得无以复加,黑客一般对自己的电脑数据都比较在意,一般都会设置些密码等并在被破解密码后做相应的补救措施,那么我们如何知道自己的电脑被人动过或者被盗呢(假设电脑开始是关机了的),根据我最近的学习找到了实...原创 2018-05-11 02:45:19 · 26158 阅读 · 5 评论 -
python3.6.5爬虫之四:多线程同时爬取笔趣阁小说
之前爬取笔趣阁小说都是单一的一本小说,爬取多本一般也是一本爬取爬取完成再爬取下一本,本节主要是消除这个弊端,利用多线程同时爬取多本小说,这种方式比较适合,用高性能服务器来爬取数据,这个主要技巧是在之前的爬取单本小说的基础上加上多线程技术,废话不多说,来点干货。 第一步:下载单本小说这部分就不详细讲解了,具体查看我之前写的博客python3.6.5爬虫之一:笔趣阁小说爬取(首页爬取法)第二...原创 2018-05-06 19:52:25 · 30654 阅读 · 5 评论 -
python3.6.5爬虫之一:笔趣阁小说爬取(首页爬取法)
前面几次笔趣阁小说爬取法是根据每一章的地址找到下一章的地址,这种方法有个缺点,如果中间断了话,或者找不到下一章网址就会报错,这种类似串联的方法效率太低,通过研究笔趣阁每篇小说的设计架构让我找到其中的特点,这让我找到更加高效的爬取小说的方法。列表下载法第一步:分析小说设计的结构 打开笔趣阁小说的目录界面,例如:龙符,可以看到,所有章节都有链接,我们可以将这些链接爬取下来,放到列表中,然后逐一...原创 2018-05-06 19:09:56 · 31169 阅读 · 2 评论 -
python爬虫之一(2):爬取网页小说(圣墟)
强化: 爬取最新的小说圣墟 代码:#coding=utf-8import osimport sysreload(sys)sys.setdefaultencoding('utf8')from Spider import getHtmlCode from bs4 import BeautifulSoupimport re#第一章的地址url = 'https://w...原创 2018-05-04 02:09:15 · 24346 阅读 · 0 评论 -
python爬虫之三:解析网络报文xml
本节主要是讲解在项目中怎么解析获取的xml报文并获取相关字段,时间5.6-5.10原创 2018-05-03 12:54:05 · 26029 阅读 · 0 评论 -
python3爬虫之二:爬取网页图片
本节主要内容是怎么通过python获取网页上的图片,预计完成时间5.3-5.5原创 2018-05-03 12:50:48 · 23881 阅读 · 0 评论 -
Python3爬取豆瓣网站奇幻小说信息
目的:爬取豆瓣网站的奇幻小说信息 **分析:**URL=https://book.douban.com/tag/%E5%A5%87%E5%B9%BB?start=0&type=T,通过手动翻页知道,这个信息是每20本小说为一页,这里的迭代变量是start变量,第一页是start=0,第二页是start=20,其他以此类推。 这里可看到小说名,作家,出版社,出版年,价格,豆瓣评分等以...原创 2018-05-14 01:27:44 · 24706 阅读 · 0 评论 -
GlidedSKY挑战之十一:微信公众号
这是一道送分题。http://glidedsky.com/level/wechat-subscription-accountGlidedSky是一个以题会友的社区。但用户做题和题目的更新,是一个低频的行为,而低频的应用,会被用户慢慢遗忘。所以我们需要一个高频应用作为入口,可以持续引导用户来到这个低频应用。在中国,最高频的应用是微信,所以我们使用微信公众号来作为入口。关注微信公众号镀金的天空,...原创 2019-07-20 13:23:36 · 580 阅读 · 8 评论 -
GlidedSKY挑战之十:雪碧图1
挑战网址:http://glidedsky.com/level/crawler-sprite-image-1题目介绍HTTP是基于TCP连接的,TCP连接的建立是需要时间和资源的。而下载网页所需的图片资源是通过HTTP的。如果有非常多的小图片,就需要建立很多TCP连接。勤劳勇敢的前端工作者们,想到把所有小图片放到一张图片里面去。这样就可以通过一次TCP链接,下载所有的小图片,再通过前端的奇技淫...原创 2019-07-20 13:23:24 · 1460 阅读 · 0 评论 -
GlidedSKY-之九:字体2
挑战网址:http://glidedsky.com/level/web/crawler-font-puzzle-2题目介绍字体文件的本质是,给定字符、字号等参数,输出一组像素点信息,用于在设备上展示。常见的解决方案是,对于每个字符,储存一组曲线或者程序,把字号等参数代入进去,得到曲线或者程序到像素点的映射。当用来反爬的字体变得更加复杂的时候,就需要你具备阅读字体文件底层描述规则的能力了。这里有...原创 2019-07-20 13:23:07 · 729 阅读 · 0 评论 -
GlidedSKY-之三:IP屏蔽1
挑战网址:http://glidedsky.com/level/crawler-ip-block-1题目介绍大家说,页面做分页是因为单页内容太多。但分页还有一个不为人知的好处——用来反爬。当一个爬虫尝试不断翻页爬取所有内容的时候,行为特征会非常容易识别。比如说,对高频率访问的IP进行封禁。因为这是一个硬核的爬取攻防练习,常规高频封禁太弱了,所以这里的策略是:你的每个IP,只能访问一次,之后...原创 2019-06-21 12:00:45 · 502 阅读 · 0 评论 -
GlidedSKY-之一:基础1
挑战网址:http://glidedsky.com/level/crawler-basic-1挑战难度:★★☆☆☆☆☆☆☆☆爬取的网页只有一页:http://glidedsky.com/level/web/crawler-basic-1需要注意点:本题没有什么难点,只需要注意需要登陆使用cookie,否则请求的数据一定是错的。代码也很简单,主要代码10左右。if __name__ ...原创 2019-06-21 12:02:57 · 563 阅读 · 0 评论