![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
qq_38243583
这个作者很懒,什么都没留下…
展开
-
分析ajax请求爬取今日头条山科大图集并下载存储到本地
说明 ajax简单的来说就是一种实现了在页面无刷新,url不变的条件下,浏览器向服务器提交请求,服务器对浏览器的请求进行解析并返回响应数据,然后通过javascript将服务器响应的数据渲染到浏览器上。而传统的正则表达式,XPath以及PyQuery都是通过解析HTML的DOM结点来得到用户需要的数据,而对于ajax响应得到的数据却无能为力,因此写下本篇文章来练习一下利用python...原创 2018-10-22 20:52:56 · 409 阅读 · 0 评论 -
利用Requests库和正则表达式爬取豆瓣影评Top250
说明 最近看了下爬虫基础,想写个博客来记录一下,一来是可以方便和我一样刚入门的小白来参考学习,二来也当做自己的笔记供自己以后查阅。 本文章是利用python3.6和Requests库(需自行安装,cmd里运行pip install requests)以及正则表达式(其实利用正则表达式是比较麻烦的一种方式,但是正则表达式在很多语言都有应用,练习一下也是有好处的...原创 2018-10-20 11:19:35 · 5034 阅读 · 3 评论 -
利用selenium爬取动态渲染的页面
说明 对于有些网站来说,他的网页不是纯HTML标签加载出来的,而是用javascript渲染出来的,对于这样的网页,如果单纯的靠正则表达式、XPath来解析是行不通的。对于这样的网页,一是我们可以分析ajax请求,分析ajax参数发现其规律,自行模拟ajax请求(对于如何利用ajax参数爬取网页数据博主前面已经提到过),二是如果通过ajax参数无法发现其规律,我们可以利用seleni...原创 2018-10-27 19:46:17 · 2350 阅读 · 0 评论