爬虫
文章平均质量分 70
CodeBoy
选我所爱、爱我所选
展开
-
爬虫之解决需要登录的网站
爬虫之解决需要登录的网站????前言:平时爬取的网站大都不需要登录就可直接获取到想要的信息,但有时我们想要的信息,需要登录之后,才可以查看,又或者说,有些网站在不登录的状态下a不能查看全部信息,因此,我们需要携带用户数据进行登入爬取。文章中介绍了三种方法解决携带登入用户进行爬取网页信息。第一种、使用Session会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie。import requestsfrom fake_useragent im原创 2021-02-17 10:34:09 · 13656 阅读 · 4 评论 -
运用Scrapy爬取药监局信息
运用Scrapy爬取药监局信息- 1.Scrapy框架的运用- 2.如何发送POST请求?(以及当一开始就需要发送POST请求又该如何发送?)- 3.当在不同请求传输数据时,如何保持多个请求之间的数据连接?- 4.如何存储到MongoDB中?- 5.如何存储为xlsx格式文件?- 6.zip函数的应用。- ......原创 2020-12-23 16:40:03 · 1544 阅读 · 4 评论 -
抓包工具-mitmproxy前奏
教你快速学会抓包工具-mitmproxy的安装及配置原创 2020-12-11 10:54:44 · 2636 阅读 · 2 评论 -
图片伪装反爬虫
图片伪装反爬虫目标网站:广西人才网目标地址:https://www.gxrc.com/jobDetail/c4329efab8424b5d871df247f299543a爬取要求:爬取联系方式1.分析网页发现提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录图片伪装反爬虫1.分析网页前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结2.解决思路3.代码如下前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门原创 2020-11-14 20:57:17 · 742 阅读 · 0 评论 -
Email邮件提醒
Email邮件提醒前言:今天在看书的时候,发现一个挺有趣的玩意,就是用python写一个自动发送Email邮件的模块。那Email在Python爬虫开发中有什么作用呢?主要起到提醒作用,当爬虫在运行过程中遇到异常或者服务器遇到问题,可以通过Email及时向自己报告。代码中涉及的邮箱授权密码,QQ跟网易的获取方式如下:1.QQ邮箱授权密码获取方式:2.网易邮箱授权密码获取方式:3.完整代码直接拷贝下来,分别注释代码去查看效果,相应的代码,也写上了注释,就不一一提出来作说明了。#原创 2020-10-25 22:57:20 · 1292 阅读 · 1 评论 -
最新Scrapy(CrawlSpider)+Selenium全站数据爬取(简书)
Scrapy(CrawlSpider)+Selenium全站数据爬取【进阶】前言:学习了 Scrapy基于CrawlSpider进行全站数据爬取 之后,我们进阶学习Scrapy(CrawlSpider)搭载Selenium进行全站数据爬取。为什么要搭载Selenlium呢?在我们之前的学习中,知道网站上有些数据是通过js动态加载出来的,我们不能直接获取这部分数据 ,需要单独对ajxa数据对应的url,进行请求,但有了Selenium的加入,网页能展示给我们看的,我们就能直接去获取到,不需要单独再去原创 2020-10-09 20:31:50 · 3747 阅读 · 6 评论 -
Scrapy基于CrawlSpider进行全站数据爬取(链家租房信息)
使用CrawlSpider进行全站数据爬取前言:CrawlSpider是基于Scrapy类的一个子类,其主要用作于全站数据爬取。本次训练的网站是【链家】,使用CrawlSpider进行全站数据爬取,厦门的租房-整租信息。(这个训练也不算全站啦~哈哈哈????)点击下载【完整代码】一.前期工作1.创建项目:scrapy startproject 项目名称2.cd 进入项目3.创建爬虫文件:scrapy genspider -t crawl 爬虫文件名 网站域名(xxx.com)4.原创 2020-10-06 09:43:46 · 1507 阅读 · 3 评论 -
最新爬取全网代理IP【隐藏标签混淆+端口加密】(二)
爬取全网代理IP【隐藏标签混淆+端口加密】(二)最新爬取全网代理IP【隐藏标签混淆+端口加密】(一)上一篇文章,我们剔除掉了混淆在其中的隐藏标签,这篇我们讲讲如何对端口进行解密。前言:其实我一开始剔除掉混淆在其中的隐藏标签的时候,以为就结束了(心想:也不过如此嘛),直到我把这些爬取下来的ip拿去验证时,没一个有效,才慢慢发觉其端口有猫腻,居然进行了加密。二、端口解密1.再次造访由于上一回的大意,这回得好好分析下它的网页结构了。直接点,将其响应内容给下载下来(或者在浏览器中查看ur原创 2020-10-04 13:46:09 · 631 阅读 · 0 评论 -
最新爬取全网代理IP【隐藏标签混淆+端口加密】(一)
爬取全网代理IP【隐藏标签混淆+端口加密】(一)起因:这两天,在学习Scrapy爬取某家租房信息时,被频繁封IP,去网上找免费的代理IP,时间长,还要测试有效性,去购买套餐,又不值得,毕竟只是学习。于是,就打算搭建一个代理池,在网上爬取公开免费的代理IP,并进行维护,做有效性检测。前言:在爬取前几家(西拉代理、泥马代理等)公开的免费代理IP时,都没问题,很顺利的就爬取下来了,但在爬取全网代理时,让我的脚步,一度放慢,为什么呢?【完整代码点击下载】坐好坐好,开始表演啦~~????????原创 2020-10-04 13:32:58 · 2341 阅读 · 4 评论 -
Scrapy使用伪装术
Scrapy中伪装UA跟使用代理IP为什么要伪装UA跟使用代理IP问题就直接跳过了,直接进入正题。我们知道,要想伪装UA跟代理IP就要在发起请求时进行拦截,然后更改数据之后,进行重新提交,那在Scrapy中,我们怎么去拦截请求?——中间件(middlewares)这里我们只需要了解中间件middlewares中下载中间件的作用:下载器中间件是介于Scrapy的request <====> response处理的钩子框架我们再看看下载中间件的结构:class CnblogsDo原创 2020-09-30 15:10:35 · 1173 阅读 · 4 评论 -
讲讲Scrapy翻页的那些事
Scrapy翻页的那些事常见的两种是通过分析每页URL或者是请求体发现规律写通用URL跟查找当前页面中下一页面的URL实现翻页!一、通过当前页面获取下一页URL适用于有【下一页】按钮的网站,且能获取到【下一页】URL的。而往往我们获取的下一页URL并不是完整的,那该怎么去补全URL?以下介绍了三种方法 拼接法、补全法、自动识别。【注】part_next_url:是通过xpath获取的部分下一页 url ; self.start_urls[0]:是我们第一次启动爬虫请求的reques原创 2020-09-26 17:40:35 · 1043 阅读 · 0 评论 -
10分钟带你搞定Selenium
Selenium的基本使用一、环境的安装命令:pip install selenium二、浏览器驱动安装这里以谷歌浏览器为例,下载Chromedriver浏览器驱动,地址:https://npm.taobao.org/mirrors/chromedriver下载对应的版本驱动才行,其他的浏览器可以去百度,下载对应的浏览器驱动程序。如何下载对应的版本驱动?(谷歌浏览器)安装浏览器驱动教程直接上图三、开始使用前期工作我们都做完了,那我们就开始编写代码了1.实例化一个浏览器对象原创 2020-09-25 22:18:18 · 1616 阅读 · 0 评论 -
Scrapy中管道类的使用及如何将数据存储到MySQL数据库
Scrapy中管道类的使用及如何将数据存储到MySQL数据库在Scrapy中,我们知道管道是负责数据的清洗、保存。就是将每一个Item对象进行存储,一般在管道文件中一个管道类对应将一组数据存储到一个平台或者载体中。所以今天的MySQL数据存储跟管道文件就不得不合起来说说了前提条件:安装好了MySQL。没有安装MySQL的可以参考我博文 安装MySQL ,最好就是再安装一个 Navicat 图形化工具,后期操作起来更简单。1.创建一个管道类打开管道文件pipelien.py, 添加一个存储到原创 2020-09-23 14:30:57 · 1640 阅读 · 0 评论