python爬虫
超超.
共同学习,共同努力,共同进步
展开
-
分布式爬虫,介绍及用法
什么是分布式爬虫?1、分布式爬虫就是将可以在多台电脑上运行,这样可以提高爬虫速度和效率2、普通的爬虫是将起始任务定义在本机的爬虫文件中,分布式是将起始任务定义在远端服务器上,可以同时多台电脑去取任务,进行爬取分布式爬虫用法首先在settings中进行一些相关的配置,以下是在settings中的一些配置1、设置DUPEFILTER_CLASS,使用scrapy_redis的去重组件,不再使...原创 2019-06-18 19:58:16 · 3501 阅读 · 0 评论 -
scrapy框架流程、结构、用法
scrapy介绍1、scrapy框架结构:Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Downloader(下载器):负责下载Scrapy En...原创 2019-06-16 20:34:12 · 165 阅读 · 0 评论 -
urllib与正则
urllib发起请求接收响应GET请求#爬取网站的urlurl = 'http://www.baidu.com'#设置请求头headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/53...原创 2019-09-09 08:47:47 · 178 阅读 · 0 评论 -
Requests爬虫
RequestsRequests 继承了urllib的所有特性,并且API使用更加方便,可以简化我们的代码如何使用RequestsGET1 导入 import requests2 发起请求url = '目标url地址'# 设置请求头headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10...原创 2019-09-09 17:33:54 · 119 阅读 · 0 评论 -
xpath解析数据
xpathXPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。XML 和 HTML 的区别XML:被设计为传输和存储数据,其焦点是数据的内容。HTML:显示数据以及如何更好显示数据。xpath选取节点表达式描述/从根节点选取。//从匹配选择的当前节点选择文...原创 2019-09-09 18:29:18 · 456 阅读 · 0 评论 -
BeautifulSoup解析数据
BeautifulSoupBeautifulSoup是Python独有.简单便捷和高效安装bs4pip install bs4# pip install lxml bs4用到lxml库,如果没有安装过lxml库的时候,需要安装一下代码使用流程1、导包from bs4 import BeautifulSoup2、创建BeautifulSoup对象Bea...原创 2019-09-10 19:25:56 · 2008 阅读 · 0 评论 -
pyquery解析数据
pyquerypyquery库是 jQuery 的 Python 实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好安装 pip3 install pyquery1、导包from pyquery import PyQuery初始化pyquery对象pq = PyQuery(response)属性和方法.find():查找嵌套元素...原创 2019-09-10 19:53:13 · 321 阅读 · 0 评论 -
Scrapy-redis分布式爬虫
运行流程为什么使用redis数据库?reids数据库完成了什么功能?redis数据库是基于内存的存储,读写的效率高。redis数据库有丰富的数据类型(string、hash、list、set、zset)实现了去重,实现了调度器的队列和数据的存储实现分布式爬虫的流程和步骤1、第一步需要设置settings中的配置#设置去重组件,使用的是scrapy-redis的去重组件,而不再是s...原创 2019-09-22 11:58:06 · 144 阅读 · 0 评论 -
Scrapy爬虫部署
远端部署1、配置服务器的python环境安装pip3:sudo apt install python3-pip安装scrapy:pip3 install scrapy -i https://pypi.douban.com/simple/如果安装失败添加以下依赖:sudo apt-get install python-dev python-pip libxml2-dev libxslt...原创 2019-09-22 19:53:47 · 186 阅读 · 0 评论