看,未来
墨家学徒
展开
-
爬虫百战穿山甲(3):全国高校的自我介绍,快来找找你的大学吧!!!
郑重申明:本文仅为研究学习使用。网页分析网址:https://gkcx.eol.cn/school/search一页20个学校,总共一百多页:我估摸着有近三千个学校吧。接触一个陌生网站做爬虫,先拿源码试试水嘛,源码要是都拿不下来那就,懂得都懂。源码拿下来之后,做一下Xpath提取标签?一看就不专业。这个是动态网页,要提取标签要用post方法来提。那你这一百多页,PO一百多次,可能第一次就直接失败了。反正我post这么多次成功次数两只手熟的过来。而且要PO,那就是找到包了嘛,那我直.原创 2021-04-15 21:14:04 · 3321 阅读 · 20 评论 -
爬虫百战穿山甲(1)有道翻译爬虫
文章目录系列简介分析网页代码实现拓展延伸系列简介将我的“爬虫百战穿山甲”团队平时做的项目放到这个专栏里吧,仅供学习研究使用,如有侵权,私信我删除,不得转载本系列不多废话,小白入门爬虫可以先看一下我的另一个专栏:点击进入:精写15篇,带你入门Python爬虫里面有十一篇教程,带四个项目。分析网页点此蓝字打开:有道翻译直奔主题:直接打开网络传输板块,选择“XHR”。输入测试单词,比如说:hello,发现两个包,但是不知道有什么不一样的,就拿一个就好了:拿下那个网址:https:.原创 2021-04-12 16:39:16 · 13636 阅读 · 14 评论 -
从零开始,学会Python爬虫不再难!!! -- (2)承接:解析网页,抓取标签 丨蓄力计划
文章目录系列导读这个系列是什么?本系列配套资源已加入CSDN“蓄力计划”,打造精品系列系列适用人群认识HTML源代码上图已魔法反爬,哈哈哈,想爬就爬呗,不拦着。系列导读这个系列是什么?本系列会写一些什么内容,在开头那张思维导图里面写了个大概了,至于导图里面没有写出来的,就作为一些探索的内容吧。我之前有写过一个Python爬虫自学系列,反响也还可以,不过那个系列里面的不少链接是另一个付费专栏里面的内容了,相对要阅读就有些困难。这个系列是在原有知识点的基础上,加入一些新的知识点,重新写的一个系列.原创 2021-04-12 09:57:15 · 4418 阅读 · 21 评论 -
【从零开始,学会Python爬虫不再难!!!】专栏介绍 | 蓄力计划
文章目录专栏亮点为什么要学爬虫专栏思路与内容大纲系列适用人群作者介绍答疑群专栏亮点 从最基础部分开始逐步讲解爬虫技术。包括但不限于:了解爬虫,解析网页,截取数据包;互斥锁、线程池、缓存技术助力异步并发爬虫;selenium自动化技术,不仅仅可用于爬虫领域;还有scrapy框架作为压轴。 教你熟练掌握Python爬虫全部流程。解决当面对一个陌生网页时,如何用更简单、更快更便捷的操作流程完成任务。 注重实战演练。系列中带有四次项目演练,覆盖重要知识点,做点对点训练,反复加深对爬虫技术的认知。 知.原创 2021-04-16 11:00:15 · 1394 阅读 · 0 评论 -
从零开始,学会Python爬虫不再难!!! -- (1)开篇:初识爬虫,基础铺垫 丨蓄力计划
文章目录系列导读这个系列是什么?本系列配套资源已加入CSDN“蓄力计划”,打造精品系列系列适用人群初识爬虫卸下心理包袱记住我们是为什么学习爬虫上图已魔法反爬,哈哈哈,想爬就爬呗,不拦着。系列导读这个系列是什么?本系列会写一些什么内容,在开头那张思维导图里面写了个大概了,至于导图里面没有写出来的,就作为一些探索的内容吧。我之前有写过一个Python爬虫自学系列,反响也还可以,不过那个系列里面的不少链接是另一个付费专栏里面的内容了,相对要阅读就有些困难。这个系列是在原有知识点的基础上,加入一些..原创 2021-04-10 10:29:20 · 4239 阅读 · 15 评论 -
爬虫百战穿山甲(6)-- 学会爬虫,终于拿到了我心心念念的那首歌
以前想要那首歌,VIP不是问题,奈何也没法在APP上找到。现在有技术了,我自己拿,万事不求人!!!原创 2021-04-25 21:54:46 · 18056 阅读 · 16 评论 -
爬虫百战穿山甲(5)用大并发的手段批量爬取小图片
网页分析网址:百度图片:超前消费因为我下一场直播(2021.4.24)的主题是超前消费,那就爬超前消费主题的图片吧。看了一下,这个网页是下拉式的动态网页,根据我们前几篇的经验,直接找网络包吧,也不要花太多时间了。不过在网络包这里栽了跟头,浪费了一些时间,因为:网址的结构是这样的(仅放不同)'pn=30&rn=30&gsm=1e&1619227748027=''pn=60&rn=30&gsm=3c&1619227748310=''pn=90&..原创 2021-04-24 10:58:19 · 2841 阅读 · 6 评论 -
爬虫百战穿山甲(4):帮学弟学妹们看看高考选科走班指南
郑重申明:本文仅为研究学习使用。文章目录网页分析代码实现优化小思路网页分析网址:http://wjt.a.101.com/activity/2020/gaokaotool/search-km.shtml目前是有八个省的数据,但是其他几个省的数据都有Excel直接下载了,所以就选择福建的啦。能简单就简单嘛。可以看到页面中有两个下拉框和一个“开始查询”按钮,且让我们点击一下查询按钮看情况。点击之后发现,依旧是一个动态网页。所以我们熟练地点开网络抓包工具:就一个包,没什么好说的,点开看:.原创 2021-04-16 16:32:50 · 3082 阅读 · 8 评论 -
爬虫百战穿山甲(2):百度翻译爬虫
文章目录系列简介解析网页代码实现带上UI系列简介将我的“爬虫百战穿山甲”团队平时做的项目放到这个专栏里吧,仅供学习研究使用,如有侵权,私信我删除,不得转载本系列不多废话,小白入门爬虫可以先看一下我的另一个专栏:点击进入:精写15篇,带你入门Python爬虫里面有十一篇教程,带四个项目。解析网页如果找不到sug的话可以多搜几次,另一个包也有这些东西,但是post上去会报错。那个包的数据格式是:“query”,避个雷。往下翻,找到了form data。于是就可以编写代码了:代码.原创 2021-04-13 21:38:48 · 3796 阅读 · 21 评论 -
从零开始,学会Python爬虫不再难!!! -- (14)Scrapy框架丨蓄力计划
安装scrapy1、win+R,cmd,打开终端2、pip install pywin32pip install pyopensslpip install wheel3、打开https://www.lfd.uci.edu/~gohlke/pythonlibs/,找到twisted和lxml两个whl文件,下载下来。4、进入两个文件的存放目录下,pip install Twisted·····pip install lxml····5、安装scrapy,这里需要引入国内源。pip i原创 2021-05-02 11:00:50 · 610 阅读 · 0 评论 -
从零开始,学会Python爬虫不再难!!! -- (13)selenium项目:自动点赞机丨蓄力计划
哎,兄弟们,开工了。项目我就不多做介绍,想用selenium用做爬虫的小伙伴也可以用,但是呢,还是要根据各项技术自身的优势来做开发。所以,我用selenium做个小工具吧。之前做的那个项目是卖钱的,就不太敢放出来,就做一个CSDN的点赞机器吧,他们应该不会怪我吧,不会吧不会吧。...原创 2021-05-02 10:15:59 · 610 阅读 · 0 评论 -
从零开始,学会Python爬虫不再难!!! -- (12)Python自动化解放你的双手丨蓄力计划
自动化实现:selenium粗略展示一下,打开浏览器,打开一篇博客,然后关掉,至于其他高端操作,我们后面通过代码来展示:代码展示# 本地Chrome浏览器设置方法from selenium import webdriverimport timedriver = webdriver.Chrome()driver.get('https://blog.csdn.net/qq_43762191')time.sleep(2)driver.get('https://lion-wu.blog.原创 2021-05-01 19:54:20 · 614 阅读 · 1 评论 -
从零开始,学会Python爬虫不再难!!! -- (11)项目三:梳理博客中的无效链接丨蓄力计划
任务背景在我们的博客中,充斥着大量的链接。随着时间的推移,其中一部分链接已经处于失效状态,这些失效链接给我们读者带来的体验是及其不好的。但是我们也要互相的体谅,毕竟一个博主的文章都是几十上百篇的,有的甚至于上千篇,哪个链接失效了,我们也是真的不知道,或者知道了,也不知道具体在哪些地方有被引用到。这就对我们的清理工作造成了巨大的困难。鉴于这个问题,我特地研究了这么一套方法,爬取所有的失效链接,保存方式为:受害博客、失效链接、失效链接代号。当然,这个程序只用于嵌入在文章中的跳转链接(从我自身的角度原创 2021-04-29 11:45:07 · 567 阅读 · 0 评论 -
从零开始,学会Python爬虫不再难!!! -- (10)爬虫缓存丨蓄力计划
为什么需要缓存?在做大并发爬虫的时候,我们的代码始终还是脆弱的,不论我们如何在try···except···中去调整代码的健壮性,大前提也是这个程序得正常的执行完啊。那如果执行过程中,服务崩了?怎么办?都已经爬了十万条了,就剩五万条了,但是又不知道剩下的是哪五万条,大并发都是用线程池或者协程来爬,无序的啊!!!重爬?我都等了两个小时了你让我重爬?我忍不了!!!...原创 2021-04-27 15:54:03 · 654 阅读 · 1 评论 -
从零开始,学会Python爬虫不再难!!! -- (9)URL去重丨蓄力计划
知其然,知其所以然。只知其然,不知其所以然,则学习如空中楼阁。欢迎来到本系列最核心的课程,异步并发爬虫。本部分分为四篇博客来叙述,准备好上车了吗?由于前四篇(两篇主体,两篇番外)连续高压,所以这篇我们将URL去重部分和缓存部分分开,减轻压力。做去重的方法有很多,比方说两两比对。但是,做大并发爬虫的时候,URL的数量是很大的,一个好的算法将会大大缩短我们等待结果的时间。说到去重,最直接的想法就是用集合(set)嘛。将URL插入到set中,可以实现自动去重的功能,因为集合的特性就是每个值不重复存在.原创 2021-04-25 15:26:49 · 644 阅读 · 1 评论 -
番外(一):轻松理解async 和 await
连续写了两篇的协程,不知道大家能不能吃得消。我这边的测试人员表示是吃不消的,让我抓紧补一篇关于async和await的解释,不然那两篇已经无法阅读了。所以,解释来了!!!那两篇博客:Python异步并发机制详解,让你的代码运行效率就像搭上了火箭!!!精写15篇,学会Python爬虫 – (8)协程之上讲异步并发丨蓄力计划不解释,一切都注释里:from time import sleep, timedef demo1(): """ 假设我们有三个锅,分别要炖蒸炒三道菜原创 2021-04-23 22:28:45 · 637 阅读 · 0 评论 -
从零开始,学会Python爬虫不再难!!! -- (8)协程之上讲异步并发丨蓄力计划
## 探究低层建筑:asyncioPython由于全局锁(GIL)的存在,一直无法发挥多核的优势,其性能一直饱受诟病。不过,在IO密集型的网络编程各种,异步处理比同步处理能够提升非常之高的速度。而相对于其他语言,Python还有一个很明显的优势,那就是它的库很多啊!!!Python3版本引入了async/await特性,其特点是:当执行过程中遇到IO请求的时候,可以将CPU资源出让,运行其他的任务;待IO完成之后,继续执行之前的任务。···...原创 2021-04-21 20:19:06 · 689 阅读 · 3 评论 -
从零开始,学会Python爬虫不再难!!! -- (7)线程、互斥锁、线程池丨蓄力计划
知其然,知其所以然。只知其然,不知其所以然,则学习如空中楼阁。欢迎来到本系列最核心的课程,异步并发爬虫。本部分分为三篇博客来叙述,准备好上车了吗?多线程技术文章开始,我们先来看一下线程池的使用与效果。不知道效果就一味的讲为什么会怎么怎么样,显得枯燥。什么是线程? 线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。什么是进程? 进程是一段程序的执行过程。官方话.原创 2021-04-18 16:14:12 · 786 阅读 · 1 评论 -
从零开始,学会Python爬虫不再难!!! -- (6)项目二:获取腾讯校招数据丨蓄力计划
网页分析网址:https://join.qq.com/post.html?pid=1经严密测试,发现这是一个动态网页。即所有内容都在一个网址下,随着用户的点击而重新加载网页内容。对于这种网页,我们可以视具体情况采用两种解决方法:1、既然要根据用户点击来加载内容,就是需要获取页面信息,则采取Post方式对服务器进行访问。2、既然要不断的重新加载网络内容,则我们找出目标网络通讯包,获取通讯包中数据也是一种办法。具体情况是,目标网络包是以get形式获取到的数据,所以我们直接选用方法二。...原创 2021-04-17 11:24:45 · 1986 阅读 · 4 评论 -
从零开始,学会Python爬虫不再难!!! -- (5)截流:从网络包中获取数据 丨蓄力计划
Xpath提取标签为空?咱也不多废话了,这样的栗子比比皆是。朋友昨天给我一个网站,说是数据用Xpath拿不下来,让我帮他看看:网站在此,仅做学习使用他要拿的太多了,我们稍微看一下:这种一看就是动态网页,“全部、年报、三季报、中报、一季报”都在同一个网址下。那Xpath提不出来不是很正常嘛、让我们提一下看看:import requestsfrom lxml import etreeimport randomimport timeuser_agent_list = [ "Mo.原创 2021-04-16 19:55:35 · 1815 阅读 · 11 评论 -
从零开始,学会Python爬虫不再难!!! -- (4)项目一:获取电影票房数据库数据 丨蓄力计划
项目介绍本来是应该去爬取自己的博客的,但是出了点意外啊,使得那个项目失去了它本来应该有的意义,简单来说就是太简单了,但是有一定可能会太难,毕竟CSDN的反爬一直在更新,我也不知道哪天这一套就不行了。所以我干脆找一个更简单的,毕竟第一个项目嘛,还是要稳一点的好。到时候要是反爬了,文章好改,视频要改就麻烦了。网页分析其实上一篇分析的差不多了,这一篇只要接在下面继续做一点开发就可以了。上一篇:精写15篇,学会Python爬虫 – (3)揭秘:我是如何绕过登录验证的 丨蓄力计划首先,我们拿下表头..原创 2021-04-14 21:57:07 · 4031 阅读 · 22 评论 -
从零开始,学会Python爬虫不再难!!! -- (3)揭秘:我是如何绕过登录验证的 丨蓄力计划
文章目录登录验证的背后客户端和服务端请求响应的关系认识session和cookiecookiesession开始操作上图已魔法反爬,哈哈哈,想爬就爬呗,不拦着。登录验证的背后打开一个网页,发现它需要登录,有可能还有各种各样的验证码。输入账号密码,或者扫码之后登录上网页,解锁更多新功能。只要我们不关闭网页,这个登录状态就会被保持着。这个场景都不陌生吧。我们关闭浏览器,再次打开浏览器,会发现有的网页依旧保持着登录状态,比如说CSDN,而有的网页已经被退出登录了,想再次进入就需要重新登录,这样的.原创 2021-04-13 19:49:13 · 1934 阅读 · 29 评论