![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 66
m0_50617513
这个作者很懒,什么都没留下…
展开
-
2021-11-13
Scrapy运行流程1)当爬虫(Spider)要爬取某URL地址的页面时,使用该URL初始化Request对象提交给引擎(Scrapy Engine),并设置回调函数。 Spider中初始的Request是通过调用start_requests() 来获取的。start_requests() 读取start_urls 中的URL,并以parse为回调函数生成Request 。2)Request对象进入调度器(Scheduler)按某种算法进行排队,之后的每个时刻调度器将其出列,送往下载器。3)下载器(D原创 2021-11-13 09:06:25 · 537 阅读 · 0 评论 -
编程语言是什么
编程需要是什么其实,程序指的就是一系列指令,用来告诉计算机做什么,而编写程序的关键在于,我们需要用计算机可以理解的语言来提供这些指令。虽然借助 Siri(Apple)、Google Now(Android)、Cortana(Microsoft)等技术,我们可以使用汉语直接告诉计算机做什么,比如“Siri,打开酷狗音乐”,但使用过这些系统的读者都知道,它尚未完全成熟,再加上我们语言充满了模糊和不精确因素,使得设计一个完全理解人类语言的计算机程序,仍然是一个有待解决的问题。为了有效避开所有影响给计算机传递原创 2021-11-05 00:16:45 · 70 阅读 · 0 评论 -
MapReduce
MapReduceMapReduce,是hadoop中集群数据处理的核心,主要分为映射和减速两部分,映射就是Map部分,减速就是说的Reduce阶段。Map,就是映射阶段,在数据处理的初期,hadoop会从HDFS中获取要处理的数据,一般处理的数据是文件或者目录,并逐行或逐个的读取,可以通过编程实现Map接口来自己处理映射阶段的数据处理。Reduce,减速阶段,分为Shuffling和Reducer,主要是处理Map阶段后的数据,处理完成后,产生新的输出,输出到HDFS中,可以通过实现Reduce接口原创 2021-10-31 16:50:35 · 181 阅读 · 0 评论 -
2021-10-18
一、Scrapy框架组件介绍在介绍Scrapy的工作原理之前,我们简单了解下Scrapy框架中的各个组件。Scrapy框架主要由六大组件组成,它们分别是调试器(Scheduler)、下载器(Downloader)、爬虫(Spider)、中间件(Middleware)、实体管道(Item Pipeline)和Scrapy引擎(Scrapy Engine)。1.1、调度器(Scheduler)调度器,负责对Spider提交的下载请求进行调度。说白了可以想像成一个URL(抓取网页的网址或者说是链接)的优先队原创 2021-10-18 17:15:22 · 60 阅读 · 0 评论 -
2021-09-24
Python编程基础Python 是一门开源免费、通用型的脚本编程语言,它上手简单,功能强大,坚持「极简主义」。Python 类库(模块)极其丰富,这使得 Python 几乎无所不能,不管是传统的 Web 开发、PC 软件开发、Linux 运维,还是当下火热的机器学习、大数据分析、网络爬虫,Python 都能胜任。这套 Python 基础教程不是教科书,不会玩弄概念,而是力求口语化和通俗化,让读者尽快入门。如果有小朋友出于兴趣学习 Python,请引导他阅读本教程的前半部分,这是基础,可以降低学习成原创 2021-09-24 07:26:05 · 75 阅读 · 0 评论 -
2021-09-17
基本结构hadoop提供了分布式集群的框架,可以高效的运行在低廉的机器上,用于大数据的处理分析,提高了机器的吞吐量。hadoop核心主要由两部分组成分别是MapReduce、HDFS。MapReduce主要是负责分布式数据计算的核心,在使用hadoop时编写程序来实现对应的Map接口和Reduce接口,并调用hadoop的集群驱动来启动并行计算。HDFS是hadoop提供的分布式的数据存储,将数据分成块存储到集群的数据节点中,使用方法和命令类似于Linux的文件存储命令。接下来详细介绍这两部分。Map原创 2021-09-17 08:32:50 · 249 阅读 · 0 评论