爬虫系列教程
分享我学习爬虫的思路,以较为系统的方式树立爬虫的知识,并分享一些代码和示例。
李弘宇
在沉默中积蓄力量,才能焕发出耀眼的光芒。
展开
-
爬虫系列教程三:requests详解
前言: 我从这部分内容开始逐步根据官方文档介绍教程二中提到的一些库; 爬虫的基础是与网页建立联系,而我们可以通过get和post两种方式来建立连接,而我们可以通过引入urllib库[在python3的环境下导入的是urllib;而python2的环境下是urllib和urllib2]或者requests库来实现,从程序的复杂度和可读性考虑,requests库显然更能满足程序员的需求,但是我没有找...原创 2020-04-10 15:21:59 · 420 阅读 · 0 评论 -
爬虫系列教程二:如何获取网页信息并定位信息所处位置
在爬虫中如何获取并定位网页的信息 由于我们获取网页的类型的不同,我们希望爬取的信息的定位方法也有很大差别,但总体来说我们想要爬取的网页可以分为静态和动态,下面讲述在不同的情况下如何爬取这些信息; 网页的不同类型 根据获取网页的方式不同可以分为 静态网页 静态网页是只在用户打开网页时,网站服务器与用户的浏览器通信一次,用户便获取了所有的信息,之后,用户可以不再与服务器发生任何通信; 动态网...原创 2020-04-10 14:03:54 · 2815 阅读 · 0 评论 -
爬虫系列教程一:学习爬虫前需要看的基本术语和知识
在学习定位网页信息的之前,我们首先需要了解一下各个术语(这部分有很多是网页的知识,写爬虫需要对网页有较为深刻的认识,所以我罗列了很多知识点,挂一漏万,欢迎大家补充;当然急着写爬虫的读者可以略去不读,日后回看): SGML/HTML/XML/XHTML SGML的全称是Standard Generalized Markup Language(标准通用标记语言); HTML的全称是Hyper Te...原创 2020-04-10 14:01:55 · 806 阅读 · 0 评论 -
爬虫系列教程零:怎么学习爬虫
我接触爬虫已经快两年了,但是一直没有写下一个系统的爬虫的笔记,最近在上web搜索的课程,又一次用到了爬虫,所以写下这系列文章。我写这个系列的目的主要是巩固自己的知识,梳理知识的体系,所以思路上的内容比较多,有时间也会补一些代码进行说明或者分享一些我做过的爬虫的内容。 如果是想要入门爬虫,我强烈推荐崔庆才的视频:我当时爬虫入门比较痛苦,因为网上的资料比较多,需要仔细的去搜索各个模块的知识,才能有一个...原创 2020-04-10 13:57:21 · 480 阅读 · 0 评论 -
python爬虫 定位和选择网页内容的几种方式比较 正则表达式\libxml、bs4、lxml和xpath、css选择器
一,数据抽取的工具 1,有哪些可供选择的方式 a,正则表达式; b,beautifulsoup; c,pyqurey; d,lxml; 2,这四种方式的特点 正则表达式: 优点:异常的强大 缺点:1,不够简单;2,可读性较差;3,不易更改; bs4: 优点:1,提供的内容很少,又可以有效的抓取信息 缺点:1,工具不够多...原创 2018-09-01 18:12:41 · 2257 阅读 · 0 评论