python爬虫
新人学习笔记
shi_zi_183
这个作者很懒,什么都没留下…
展开
-
(3)Ajax数据抓取
Ajax数据抓取序言通过前几章的学习我们已经了解了爬虫的工作原理和一些基本库的使用。有时候在使用requests库或urllib库抓取页面时,得到的结果可能和在浏览器中看到的不一样。这是因为有些浏览器中的页面是经过JavaScript处理数据后生成的结果。这些数据的来源有很多种,可能是通过Ajax加载的,也可能是包含在HTML文档中的,还有是经过JavaScript和特殊的算法计算后生成的。对于第一种情况,是一种异步加载方式,原始的页面最初不会包含某些数据,原始页面加载完成后,在通过JS向服务器发送原创 2020-10-21 00:21:26 · 481 阅读 · 0 评论 -
(2)通过XPath地址定位标签
XPath序言XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPath表达之上。XPath在Python的爬虫学习中,起着举足轻重的作用,对比正则表达式re,两者可以完成同样的工作,实现的功能也类似,但XPath明显比re具有优势,在网页分析上使re退居二线。XPath的全称为XML Path Language,是一种小型的查询语言,其有如下优点。(1)可在XML原创 2020-10-08 23:57:50 · 528 阅读 · 0 评论 -
(1)爬取网站源码
urllib库urllib库是python标准库中用于网络请求的库。该库有4个模块,分别是urllib.request,urllib.error,urllib.parse,urllib.robotparser。其中第一个与第二个模块子爬虫程序中应用比较频繁。urlopen() 模拟浏览器发出一个HTTP请求,需要用到urllib.request模块。urllib.request的作用不仅是发起请求,还能获取请求返回结果,还能获取请求返回结果。下面先来看一下urlopen()的API。urllib.re原创 2020-09-13 20:19:33 · 1093 阅读 · 0 评论