python爬虫
如梦如幻uuu
这个作者很懒,什么都没留下…
展开
-
【2】Python爬虫:分析AJAX传递的JSON获取数据-初步分析动态网页(1)
这是本人写的第二篇文章。希望能够帮助到一些和我一样的python爬虫初学者。在第一篇文章中,我总结了最近学到的利用requests和bs4第三方库共同作用,基本可以应对python获取静态网页数据的相关问题。但是如果现实中的网页往往比想象中复杂的多,网页也早已不再是纯静态网页。因此,本文对动态网页、异步加载的爬取方法之一进行了实例分析。原创 2018-01-30 23:09:15 · 35324 阅读 · 13 评论 -
【1】python爬虫入门,利用bs4以及requests获取静态网页
注:本文仅适用于爬虫初级入门者,并不涉及太多技术本质感谢您阅读此文。最近放假在家,闲时无聊,开始入门了python爬虫,可以完成一些基本的数据爬取(对于一些反爬取例如JS渲染,接口加密等页面仍然处于学习之中),本文就是简单总结最近已熟练掌握的爬取静态网页的方法。若是从未接触过相关知识的朋友,在开始之前,需至少掌握python入门知识,详见廖雪峰的官方网站,另外若要深入探究爬虫的本质以及希望原创 2018-01-29 15:04:38 · 15970 阅读 · 5 评论 -
【3】基于selenium的元素查询及chrome-headless设置-爬取动态网页(2)
第二篇感觉篇幅过长了,所以在思考要不要把实战项目专门放在一个地方。本文就是介绍第二篇中介绍的方法二:利用selenium操纵浏览器来模拟浏览器行为从而获取数据。如上篇介绍,我们发现网页源代码和检查元素不一致,这是AJAX异步加载所致。这同时也说明浏览器可以识别出这些加载出来的东西,所以如果我们可以直接控制浏览器,自然也可以抓取到这些本看不到的元素。Selenium是一个自动化的测试工具原创 2018-02-01 23:56:32 · 4043 阅读 · 0 评论 -
【4】实战:爬取动态网页的两种思路爬取新浪趣图(1)
第三篇末尾提到了,在这里我们就以爬取新浪趣图上的gif图来演示介绍过的两种爬取动态网页的方法:1.分析网页,找到AJAX传递数据的地址,并分析数据,通常是Json格式储存的数据;(详见【2】分析JSON获取数据)2.运用selenium模拟浏览器环境,最新python对PhantomJS不再支持,故搭档chrome。(详见:【3】selenium+chrome)其中,我记得在第二篇中,原创 2018-02-02 14:08:07 · 3583 阅读 · 0 评论 -
【5】实战:爬取动态网页的两种思路爬取新浪趣图(2)
第三篇末尾提到了,在这里我们继续就以爬取新浪趣图上的gif图来演示介绍过的两种爬取动态网页的方法:1.分析网页,找到AJAX传递数据的地址,并分析数据,通常是Json格式储存的数据;(详见【2】分析JSON获取数据)2.运用selenium模拟浏览器环境,最新python对PhantomJS不再支持,故搭档chrome。(详见:【3】selenium+chrome)其中,我记得在第二篇原创 2018-02-02 14:46:22 · 3008 阅读 · 0 评论 -
爬取中国移动用户问答
最近一个好朋友在搞爬虫,问了很多问题,所以干脆直接写了一个范例。这个程序整体要两次解析网页:第一层是分析网页中的json数据来获取qtid,第二层是用qtid来解析获得问答所在的网页因为在问答网页里的数据存储是引用的数据库中的数据,所以不得已选择了低效的selenium模式没时间分析了orz 有空再分析一下吧# -*- coding:utf-8 -*-from selenium import ...原创 2018-06-06 15:40:41 · 1343 阅读 · 2 评论 -
【6】实战:利用re模块爬取淘宝商品信息
正则表达式是一种匹配字符串的工具。它提供了一系列的规则即用法,也就是给字符串定义一系列规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。原创 2019-03-29 22:06:29 · 3213 阅读 · 1 评论 -
【7】实战:爬取网易云音乐歌曲对应id并剔除无版权歌曲
通过网易云搜索页爬取对应歌曲的id除了用了基本的爬取分析以及调试之外,还涉及到一些密码学的问题原创 2019-06-02 13:01:40 · 16407 阅读 · 13 评论