爬虫
菲宇
这个作者很懒,什么都没留下…
展开
-
Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~ 前文目录: [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上) [Python爬虫] 在Windows下安装PIP+Phantomjs+Sel...原创 2019-10-18 11:16:14 · 1740 阅读 · 0 评论 -
爬虫框架scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy ...原创 2019-01-17 20:51:35 · 752 阅读 · 0 评论 -
python爬虫之lxml库xpath的基本使用
一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。二、安装 1 pip3 install lxml 三、使用 1、导入 1 ...原创 2018-06-03 13:26:27 · 1586 阅读 · 0 评论 -
python模块之requests及应用
Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。import urllib2import jsonimport cookielibdef urllib2_request(url, method="GET", ...原创 2019-01-17 20:49:01 · 6106 阅读 · 0 评论 -
Scrapy应用:爬取笑话网+Django构建应用
Part1:需求简要描述1、抓取http://www.jokeji.cn网站的笑话2、以瀑布流方式显示Part2:安装爬虫框架Scrapy1.41、 安装Scrapy1.4E:\django\myProject001>pip install scrapy执行报错:error: Unable to find vcvarsall.batFailed buildi...转载 2019-06-08 12:07:39 · 808 阅读 · 0 评论 -
反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站
我们都知道网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如宜搜蜘蛛(YisouSpider)(最新补充:宜搜蜘蛛已被UC神马搜索收购!所以本文已去掉宜搜蜘蛛的禁封!==>相关文章)。最近张戈发现nginx日志中出现了好多宜搜等垃圾的抓取记录,于是整理收集了网络上各种禁止垃圾蜘蛛...转载 2019-07-29 08:42:00 · 2533 阅读 · 2 评论 -
fidder安装与使用
工作原理Fiddler是以代理WEB服务器的形式工作的,浏览器与服务器之间通过建立TCP连接以HTTP协议进行通信,浏览器默认通过自己发送HTTP请求到服务器,它使用代理地址:127.0.0.1, 端口:8888. 当Fiddler开启会自动设置代理, 退出的时候它会自动注销代理。firefox浏览器在fiddler打开情况下,是无法正常上网的解决办法。工具面板说明注释、...原创 2019-08-27 22:28:19 · 517 阅读 · 0 评论 -
爬虫selenium+chromdriver
前言:由于requests模块是一个不完全模拟浏览器行为的模块,只能爬取到网页的HTML文档信息,无法解析和执行CSS、JavaScript代码,因此需要我们做人为判断;selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;由于selenium解析执行了CSS、JavaScript所以相对requests它...转载 2019-05-26 21:50:29 · 12772 阅读 · 1 评论 -
基于Scrapy分布式爬虫的开发与设计
基于 python 分布式房源数据抓取系统为数据的进一步应用即房源推荐系统做数据支持。本课题致力于解决单进程单机爬虫的瓶颈,打造一个基于 Redis 分布式多爬虫共享队列的主题爬虫。本系统采用 python 开发的 Scrapy 框架来开发,使用 Xpath 技术对下载的网页进行提取解析,运用 Redis 数据库做分布式,使用MongoDb 数据库做数据存储,利用 Django web 框架和 S...转载 2018-05-01 18:56:48 · 655 阅读 · 0 评论 -
Python3解析库lxml
lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值...转载 2019-01-17 20:44:06 · 413 阅读 · 0 评论 -
爬虫Scrapy框架中CrawlSpider的使用——爬取内容写进MySQL案例
Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。CrawlSpider是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取。创建CrawlSpider模板:scrapy genspider -t crawl s...转载 2019-05-08 09:42:47 · 659 阅读 · 0 评论 -
五款整站抓取的工具
TeleportUltraTeleport Ultra所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想 要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象,作为创建你自己的网站的参考。WebZipWebZip 把一个网站下载并压缩到一个单独...转载 2019-05-05 19:46:41 · 24642 阅读 · 0 评论 -
爬虫框架scrapy之中间件
中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。“中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据,做一些修改再把数据传递出去。不同点在于,中间件是开发者主动加进去的组件,而中间人是被动的,一般是恶意地加进去的环节。中间件主要用来...转载 2019-05-05 21:22:51 · 1281 阅读 · 0 评论 -
全面超越Appium,使用Airtest超快速开发App爬虫
想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。Airtest是网易开发的手机UI界面自动化测试工具,它原本的目的是通过所见即所得,截图点击等等功能,简化...转载 2019-05-05 21:26:49 · 1108 阅读 · 1 评论 -
Scrapy实战:爬取伯乐在线文章并写入MySQL
伯乐在线爬虫项目目的及项目准备:1.使用scrapy创建项目2.创建爬虫,bole 域名 jobbole.com3.Start_urls = [‘http://blog.jobbole.com/all-posts/’]4.爬取所有页数的文章5.文章列表页需要数据a) 缩略图的地址b) 详情url地址6.详情页面要提取的数据# 博客标题 # 博客创建时间...转载 2019-05-06 08:46:59 · 292 阅读 · 0 评论 -
python爬虫scrapy之rules的基本使用
Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response对象)中抽取最终将会被follow链接的对象。Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求。每个LinkExtractor有唯一的公共方法是extract_li...转载 2019-05-06 16:56:27 · 4509 阅读 · 0 评论 -
Scrapy之FilesPipeline和ImagesPipline文件与图片下载
Media PipelineScrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方法和结构(称之为media pipeline)。我们可以使用FilesPipeline和Images Pipeline来保存文件和图片,他们有以下的一些特点:Files Pipeline 避免...转载 2019-05-06 19:20:41 · 2392 阅读 · 0 评论 -
Scrapy之设置随机User-Agent和IP代理
当我们需要大量的爬取网站信息时,除了切换User-Agent之外,另外一个重要的方式就是设置IP代理,以防止我们的爬虫被拒绝,下面我们就来演示scrapy如何设置随机IPProxy。设置随机IPProxy同样的你想要设置IPProxy ,首先需要找到可用的IPProxy ,通常情况下,一些代理网站会提供一些免费的ip代理,但是其稳定性和可用性很难得到保证,但是初学阶段,只能硬着头皮去找了,...原创 2019-05-06 21:07:43 · 17747 阅读 · 1 评论 -
Beautifulsoup爬取起点中文网 保存到mysql
一.分析网页目标网站:起点中文网目标数据:类别(categoryName)小说书名(bookName) 小说链接(middleUrl)字数(wordsNums) 作者(updateTiems) 最新章节更新时间(authorName)这里写图片描述目标urls:”https://www.qidian.com/all?chanId=1&orderId=&style=2...转载 2019-04-09 19:51:24 · 616 阅读 · 0 评论 -
BeautifulSoup4用法详解
1. Beautiful Soup的简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一...原创 2019-03-31 21:27:18 · 12123 阅读 · 0 评论 -
Scrapy框架之爬取拉勾网
0.前言最近有一段时间没爬虫了,现在来学习一下爬虫框架及数据库操作!看完这篇文章,你可以学会如下操作! scrapy框架 BeautifulSoup lxml selenium pyecharts pymysql 1.建立项目scrapystartprojectCQJobscrapygenspidercqjo...转载 2019-04-10 08:35:40 · 1040 阅读 · 0 评论