Python 爬虫从入门到精通
文章平均质量分 93
Python 爬虫从入门到精通
君若雅
Java 技术专家
展开
-
chapet13-常见的反爬虫和反反爬虫技术
爬虫与反爬虫本身就是一种“对抗性”的技术。正所谓“道高一尺,魔高一丈”。反爬虫技术的出现,往往会导致反反爬虫技术的“问世”。作为一名爬虫工程师,我们要意识到,目前的反爬虫技术,已经逐渐从当初普通的限制IP,变为现在的验证信息的方法进行发展——事实上,目前爬虫技术通过IP代理技术,可以完全无视限制IP的约束。但是,像是“滑动滑块”、“点击对应的文字”等具有动作判定的反爬虫技术,我们并没有什么特别好的办法,只能一点一点的去模拟,去猜测动作判定的标准——而标准会随时因为提供商的升级进行改变。原创 2024-01-22 00:34:54 · 2339 阅读 · 0 评论 -
chapter12-实战成绩通知短信系统(下)
本文存在着大量的编码转化、数据存储操作。希望大家有问题一定要去讨论区进行讨论,我会第一时间为大家解答;还是要提醒大家:项目需要配置的信息很多,希望同学们能够静下心来,耐心的跟着文章学习;自动识别验证码目前的准确率已经达到了90%,我将会尽快更新相关代码。可能你看到这篇文章的时候,就不需要人工识别验证码了。原创 2024-01-22 00:33:20 · 1262 阅读 · 0 评论 -
chapter11-实战成绩通知短信系统(上)
本章完成了成绩短息通知服务的登录和获取成绩步骤,这两个步骤是我们开发中最重要的过程,因此同学们有不理解或者不明白的地方,一定要在讨论区发表自己的看法!事实上,某方的教务系统代码杂乱无章,或者是有意为之。因此接下来的网页解析,也希望大家能够认真学习;在编写课程中,我尝试了使用机器学习去识别验证码,但是准确率只有70%左右,成熟度不够,因此只能使用保守的人工识别验证码的方式保证系统登录正常。原创 2024-01-21 11:39:07 · 1359 阅读 · 0 评论 -
chapter10-让你拥有“火眼金睛”的 Fiddr4 和其他工具
本文首先介绍了目前流行Ajax技术,然后使用Chrome分析Ajax加载的规律,最后使用正则表达式获取到了相应的课程标题;正如之前提到的那样,正则表达式是一种强大的语言,当网站没有一定的规律或者是爬取的信息不能够正常的解析出来时,我们只能通过正则表达式来获取我们想要的数据;Fiddler 4 最大的优点是可以直接连接手机,抓取手机的请求数据——在某些情况下,使用手机爬取信息往往是最简单的。限于篇幅原因,你可以在这篇文章了解如何连接手机;原创 2024-01-21 11:35:16 · 818 阅读 · 0 评论 -
chapter9-让你的系统全天候为你服务
本章从购买服务器开始,一步一步将我们之前开发的程序搬移到服务器中,实现服务的全天候运作;前几章都是直接请求API,减少了网页爬取方面的知识,主要是方面同学们了解我们之后要使用的相关基础技术。从下一章开始,我们要重点攻克网页爬取技术,为最后的实战项目做准备;事实上,网上有很多免费的API接口,为了不浪费珍贵的服务器资源,同学们在课后如果感兴趣的话,可以开发属于自己的短信小程序,提高生活的质量。原创 2024-01-21 11:32:37 · 905 阅读 · 0 评论 -
chapter8-“天上的馅饼”—免费的短信通知方式
上一篇文章我们详细的讲解了如何购买短信服务提供商的短信服务,并且做了一个天气预报的短信通知小服务。但是,使用国内的短信服务提供商提供的短信接口是收费的。我们可以使用它的邮件提醒服务:发送邮件至我们的139信箱,然后由139信箱通过短信发送到我们的手机上,达到免费短信接收的效果。本文涉及到的2种免费短信接口都存在一定的限制,我会在文章中穿插说明,同时在本文的总结中进行说明。如下图所示,创建应用后,我们进入CONSOLE后台,Twilio为了发送短信,会为我们分配一个手机号码。Twilio提供的免费接口,暂。原创 2024-01-20 22:57:20 · 991 阅读 · 1 评论 -
chapter7-使用短信接口发送信息
是我们自己定义的短信签名,短信签名是作为短信发送者属性的一种标识,一方面能够让接受者知道我们的提供服务的名称,另一方面也是短息服务提供商用来判定我们是否正常使用短信接口的一种方式。讲了那么多知识点,还是没有写代码,可能很多同学都开始烦躁起来了——那我们就做一个天气预报的短信通知服务,约定每天8点的时候,短信通知我们今天的天气如何吧!一种是直接提供SDK。使用Token验证的方法提供API接口,的确大大方便了开发者的开发过程,但是也随之带来了很多的问题,比如编码错误、请求的文字太多系统无法处理等等。原创 2024-01-20 22:53:54 · 872 阅读 · 0 评论 -
chapter6-BeautifulSoup 简介和使用
是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.我们注意到,官方说明中,提到了提取数据这个词语。为什么已经爬取了网页源码,还要解析后才能提取到相关的内容呢?原创 2024-01-19 00:19:37 · 905 阅读 · 0 评论 -
chapter5-使用网页爬虫取利器—Requests
使用Requests 能够将大量原本复杂的开发过程进行简化,方便了我们更关注网页爬取技术本身;对与请求头,我们可以直接定制,你可以参考这篇文章详细的了解请求头和请求体;原创 2024-01-19 00:16:36 · 1454 阅读 · 0 评论 -
chapter4-爬取你的第一个网页
从本篇开始,我们正式开始学习Python 网页爬虫的相关知识。通过上面两篇基础教程的学习,相信大部分的小伙伴都了解了Python 和HTML 的相关开发技术,也可能有一小部分的同学因为刚学习新的知识,还没有完全明白,就迫不及待的点开了这篇文章。无论怎样,在正式学习网页爬虫的相关文章中,作者都会力求详细,对一些之前没有讲解过、讲解的不够细致的点再次复习,将Python 网页爬虫的学习坡度降到最低。本篇使用Python 自带的 urllib 模块抓取简单的网页,在这过程中为读者提供一个较为详细的网页爬虫过程。u原创 2024-01-18 10:23:32 · 959 阅读 · 0 评论 -
chapter3-网页基础知识一点通
当你在浏览器输入,并回车访问的时候,你看到的所有的展现在你屏幕上的东西,其实都是网页。网页是通过URL来进行识别和访问的。按照wiki 百科的说法,网页被定义成下面的说明网页web page)是一个适用于万维网和网页浏览器的文件,它存放在世界某个角落的某一部或一组计算机中,而这部计算机必须是与互联网相连。网页经由网址URL)来识别与访问,当我们在网页浏览器输入网址后,经过一段复杂而又快速的程序,网页文件会被传送到用户家的计算机,然后再通过浏览器解释网页的内容,再展示给用户。是网络中的一“页”,通常是。原创 2024-01-18 10:21:12 · 698 阅读 · 0 评论 -
chapter2-Python 极速教程
需要说明的是,本部分的所有语法,都是围绕着本课程展现的,还有很多未涉及的语法和高级特性。作为一名开发者,我得承认:如果你想以后从事Python开发工作,并且目前对Python 一点都不了解的话,这样的学习方法并不合适。之前我们讲的一系列的操作,都是放在内存中的,一旦关闭程序,那么相关的变量也就被释放了。对于重复性的代码段,我们不需要每次都写出,只需要通过函数的名称调用就可以了。列表是具有索引的,因此想要访问一个列表中的数值,只需要列表名+索引值就能够得到了。上面的语句是输出1,到10之间的数,请注意,原创 2024-01-17 11:02:47 · 910 阅读 · 0 评论 -
chapter1-爬虫那些事
无论你之前学过什么语言,无论你是否了解Python,在正式学习本课程前,你需要告诉自己:Python作为高级编程语言,哪怕你没有编程的基础,你也可以高傲而且自豪地去使用它!本门课程无意争辩到底哪门语言的效率最高,亦或是哪个编程语言是最好的。Python 简单易学,初学者在什么都不了解的情况下,都可以很好的上手;Python 自带的封装接口,以及丰富的第三方库大大简化了我们的开发流程,一些看上去很难实现的功能,往往一行代码就能够搞定;基于Python 开发的网页爬虫框架众多,方便我们以后的深入学习。原创 2024-01-17 11:01:08 · 1374 阅读 · 0 评论