python爬虫(除scrapy框架)
killeri
Python的自学者,时间很宝贵,我选择Python
展开
-
今天写的一个用爬虫爬猫眼电影top100的完整代码
这个是今天写的一个爬取猫眼电影top100的一个完整的代码# coding:utf-8import jsonimport requestsfrom bs4 import BeautifulSoupdef get_one_page(url): try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6....原创 2018-04-02 17:03:03 · 2629 阅读 · 0 评论 -
求助帖--拉钩登录中的challenge参数
这是一个求助帖,今天在练习爬虫时模拟登录拉勾网。有一个challenge参数,虽然用chrome断点判断出了它的值,也知道在哪个请求里可以得到哪个值,但是生成challenge参数的请求我怎么也构造不出来,因为他是一个post请求,它的请求体是一个request payload,但是不是字典形式的,而且每次都不一样。以下是我的分析过程。首先,我们找到登陆的data可以看到有一个password...原创 2019-01-12 11:59:17 · 1321 阅读 · 7 评论 -
经验贴---fiddler安装和https请求的捕捉
安装是傻瓜式的安装。捕捉https请求参考资料:https://www.cnblogs.com/joshua317/p/8670923.htmlhttps://blog.csdn.net/lzp2011150309/article/details/52325796第一步:这里将证书导出到桌面,接下来就是将其在浏览器中设置为信任证书机构**在浏览器的设置里面找“证书管理”**进行以上的设...原创 2019-01-01 22:43:06 · 394 阅读 · 1 评论 -
经验贴—MongoDB的安装和以及可视化工具robo 3T
MongoDB下载地址:http://www.mongodb.org/downloads可视化工具下载地址:https://robomongo.org/1、首先,MongoDB下载好以后傻瓜式安装,一直“next”就好了。2、然后,是配置本地的服务,其实它是自动给你配置好了的,不过也不一定。3、输入网址:localhost:27017,如果出现的是“It looks like you ar...原创 2018-12-31 22:23:33 · 889 阅读 · 1 评论 -
scrapy对接selenium(下载中间件的使用)
用scrapy对接selenium可以实现返回渲染好的页面,但是selenium是阻塞式的,也就是说,它每次只能进行一次请求,这样就会比较慢,所以并不推荐这种方法,今天这样做,只是为了练习一下下载中间件的使用,如果真要提取渲染好的页面,还是是用scrapy的Splash插件比较好用scrapy对接selenium,必须用到现在中间件,我们知道,下载中间件可以对请求,响应或是错误进行处理。我...原创 2018-05-31 16:04:49 · 4289 阅读 · 0 评论 -
用selenium爬取58同城租房信息(万级数据)
今天想做一个58同城的爬虫,然后到页面分析一下链接,发现58同城的链接的有些参数是由js动态生成的,然后我就想偷懒了。(当然其实去js文件中找到生成式并不难),但我就是不想去找。然后就想到了selenium,各种工具都常拿出来溜溜,才能用的好!python + selenium + (head_less)Chrome,然后用BeautifulSoup解析数据,完成了。 我们来一步步的看,首先...原创 2018-05-29 16:14:27 · 4383 阅读 · 9 评论 -
爬取链家网租房信息(万级数据的简单实现)
这不是一个很难的项目,没有ajax请求,也没有用框架,只是一个requests请求和BeautifulSoup的解析不过,看这段代码你会发现,BeautifulSoup不止只有find和fing_all用于元素定位,还有fing_next等其他的更简单的,你如果某事觉得xpath比BeautifulSoup更简单,那你真的应该结合我这个再把BeautifulSoup文档再看一遍,你会发现基于l...原创 2018-05-28 15:23:10 · 8319 阅读 · 2 评论 -
我觉得我写的爬图片的代码看着很舒服
闲着也是闲着: 目标网站:http://image.so.com 代码:# _*_ coding:utf-8 _*_import osimport requestsfrom time import sleepfrom urllib.parse import urlencodeheaders = { 'User-Agent': 'Mozilla/5.0 (Windo...原创 2018-05-22 11:52:48 · 744 阅读 · 1 评论 -
对拉勾网职位信息的爬取(python)
通过发送post请求,对拉勾网的职位信息进行提取,很好的一个联系项目知识要求:request库发送post请求,csv库的使用,常用的反爬虫,对网页数据的解析等目地: 爬取拉勾网上python相关职位的信息 随便放一张图,输入python后,会跳出来职位,每页十五个职位,一共有三十页,那我们爬取的就是这三十页的所有职位信息。首先,我们打开fiddler,找出职位信息在哪个文件,每...原创 2018-05-20 12:02:42 · 350 阅读 · 0 评论 -
抓取微信文章2000篇和无限抓取百度词条(标题和简介)
前几天用selenium抓取了搜狗微信文章666篇,今天想用抓包工具fiddler进行抓包,同样实现抓取微信文章还有就是,用一个递归调用无限抓取百度百科的词条简介,很简单的一个实现知识储备:fiddler的基本使用(如何断点),一些常用python模块的使用,redis模块的使用,对深度遍历有一点点的理解。首先是,抓取微信文章,很简单的实现。每一步的说明都在代码里,可以看的懂。# coding :原创 2018-04-26 15:43:57 · 958 阅读 · 0 评论 -
爬取微信文章,用70行代码爬取了搜狗上666篇文章
因为再看崔庆才的教程,刚好看到爬取微信文章,所以就想着自己试试。打开搜狗发现,搜狗的微信文章页面网页布局有了变化(准确来说是简单了一点)、 所以分析了一下,用了70行代码实现了爬取上面【’搞笑’, ‘养生堂’, ‘私房话’, ‘八卦精’, ‘科技咖’, ‘财经迷’】几个标题的一共660多篇的文章知识储备:requests库,selenium自动化模块,MongoDB数据库模块,Beautif...原创 2018-04-24 19:44:40 · 4106 阅读 · 0 评论 -
250行代码实现动态IP池的建立
知识储备:requests,BeautifulSoup,re,redis数据库,flask(这个只要一点点,照我的抄都行),对python的类有一定的了解并且能够使用。我们知道,在爬取网页信息的时候,特别是大量的爬取,有些网站就可能有一些防爬虫的手段,其中封ip就是一个办法,被封了ip怎么办,很简单,换ip再去爬,可是哪里去找这些ip呢?你可以去网站买(有点贵),还有一种办法就是从网上找到免费...原创 2018-04-23 15:47:50 · 4324 阅读 · 5 评论 -
爬取猫眼电影随意输入关键字爬取所有结果的信息
输入关键字复仇者爬取返回页面的所有电影结果的相关信息,爬取电影看图 接下来我们的任务就是爬取三页结果的电影的相关的信息 信息包括: ‘movie_id’: movie_id, 电影的id ‘ranking’: ranking, 还没有上映电影的排名(二选一) ‘rank’:rank, 已经能够上映的...原创 2018-04-12 19:19:00 · 5516 阅读 · 0 评论 -
用自动化测试软件selenium爬取splash上的图片
因为刚开始学爬虫的时候是有一个项目是爬取一个网站的图片,一张。[网站链接](https://www.splash.com/),今天在想项目的时候就又想到了这个网站,现在想,用selenium实现页面的向下滚动,从而实现爬取多个页面的内容,这次总共爬取了160张图片(下滑了10个页面)代码量:50行# coding:utf-8from selenium import webdriverimpo原创 2018-04-18 12:04:36 · 619 阅读 · 0 评论 -
豆瓣电影top250,selenium自动化提取信息
今天要爬取豆瓣电影榜单的top250电影的一些信息,利用selenium自动化的跳转和点击,并结合requests方法,用BeautifulSoup大法,最终成功提取了top250的电影名,所有主演,年份,评分,电影简介,想看的人数,并将数据存进了MongoDB里面。 接下来,介绍一下步骤。 首先,通过自动化软件selenium,进入豆瓣首页,并模拟点击操作,进入top250页面#这里...原创 2018-04-17 18:13:39 · 1330 阅读 · 1 评论 -
python 爬虫今日头条 多线程
如果你是看崔庆才的教学视频,那有什么问题可以进来看看。 几乎每一个代码都有注释,因为今日头条的加载有了变化,所以视频中的代码不能运行# coding:utf-8from bs4 import BeautifulSoupimport requestsimport reimport jsonfrom time import ctimeimport threadingimport p...原创 2018-04-11 18:14:20 · 1003 阅读 · 0 评论 -
对github的爬取,涉及请求的分析,登录爬取,request中session对象的使用
其实github的爬取相对来说是比较简单的,可以不用框架直接使用requests和BF就可以完成一个纵向的爬取。代理工具:fiddler首先说一下这次爬取的数据,是github上递归的爬取使用者主页的信息,包括博主和此博主主页上最受欢迎的六个项目(Popular Repositories)项目的名称,简介,星数和转载数。这是爬取的信息。接下来我们来分析github的爬取,从登陆到递归爬取的...原创 2019-01-08 19:35:31 · 1247 阅读 · 0 评论