爬虫
Onion_cy
这个作者很懒,什么都没留下…
展开
-
爬虫介绍: 爬虫的基本原理
一 爬虫是什么 在我们开始介绍爬虫之前, 我们先来了解一些基础的问题, 方便我们后续更好的了解爬虫 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,...原创 2019-03-07 16:04:03 · 945 阅读 · 0 评论 -
爬虫介绍: 爬虫的请求库:Request
一 Request模块介绍 介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 #Request的安装:pip3 install requests #各种请求方式...原创 2019-03-07 20:43:13 · 732 阅读 · 2 评论 -
爬虫介绍: 爬虫的请求库:Selenium
一 Selenium介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium import webdriver browser=webdriver.Ch...原创 2019-03-07 21:20:56 · 972 阅读 · 0 评论 -
爬虫介绍: 爬虫的解析库:Re、BeautifulSoup和Xpath详细介绍
爬虫的Re解析库: 在python中就是使用我们之前介绍过的re模块 一 BeautifulSoup模块介绍 简单来说,Beautiful Soup是python的一个库, 最主要的功能时从网页抓取数据, 官方解释如下: Beautiful Soup提供一些简单的, python式的函数用来处理导航, 搜索, 修改分析树等功能. 它是一个工具箱, 通过解析文档为用户提供需要抓取的数据...原创 2019-03-07 23:07:43 · 1660 阅读 · 0 评论 -
爬虫介绍: 爬虫的解析库:Pyquery
如果你对Web有所涉及,如果你比较喜欢用CSS选择器,如果你对jQuery有所了解,那么这里有一个更适合你的解析库——pyquery。 接下来,我们就来感受一下pyquery的强大之处。 1.准备工作 在开始之前,请确保已经正确安装好了pyquery。若没有安装pip install pyquery。 2.初始化 像Beautiful Soup一样,初始化pyquery的时候,也需...原创 2019-03-07 23:22:56 · 222 阅读 · 0 评论 -
爬虫介绍: 高性能爬虫
一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的利用率仍然会很高,之所以单线程下串行多个爬虫任务低效,是因为爬虫任务是明显的IO密集型程序。 ...原创 2019-03-11 20:35:48 · 355 阅读 · 0 评论 -
爬虫框架: Scrapy的使用
一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrap...原创 2019-03-11 22:49:17 · 464 阅读 · 0 评论 -
爬虫介绍: 分布式爬虫
一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis, 然后重写Scrapy的Scheduler,让新的Scheduler到共享队列存取Request,并且去除重复的Request请求,所以总结下来,实现分布...原创 2019-03-11 22:53:31 · 335 阅读 · 0 评论