2018年08月_Jonny的ICU

11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

转载大数据学习之Kafka原理总结

KafkaKafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Li...

2018-08-28 15:24:09 626 1

转载 hadoop探索之浅析 Secondary NameNode(辅助namenode)

在初学Hadoop时，有个让人疑惑的概念：Secondary NameNode，也叫辅助namenode。从命名看，好像是第二个namenode，用于备份主namenode，在主namenode失败后启动。那么，Secondary NameNode的作用是什么？是如何工作的？一，NameNode HDFS集群有两类节点以管理者和工作者的工作模式运行，namenode就是其中的管理者。它管理着...

2018-08-09 19:07:18 333

转载谷歌Chrome浏览器开发者工具教程—JS调试篇

上一篇我们学习了谷歌Chrome浏览器开发者工具的基础功能，下面介绍的是Chrome开发工具中最有用的面板Sources。 Sources面板几乎是最常用到的Chrome功能面板,也是解决一般问题的主要功能面板。通常只要是开发遇到了js报错或者其他代码问题,在审视一遍代码而一无所获之后打开Sources进行js断点调试,几乎能解决8成的代码问题。js断点功能让人兴奋不已,以前只能在IE中靠al...

2018-08-07 13:24:14 366

转载谷歌Chrome浏览器开发者工具教程—基础功能篇

Chrome(F12开发者工具)是非常实用的开发辅助工具，对于前端开发者简直就是神器，但苦于开发者工具是英文界面，且没有中文，这让很多朋友都不知道怎么用。下载吧小编为大家带来Chrome开发者工具基础功能和高级性能分析器(Timeline、Profiles)的图文详解教程，下面是基础功能篇。提示：右键点击图片选择在新窗口或新标签页中打开可查看大图。一、Elements在Elemen...

2018-08-07 13:22:40 2004

原创 python爬虫进阶之scrapy的暂停与重启

scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一：1、首先cd进入到scrapy项目里（当然你也可以通过编写脚本Python文件直接在pycharm中运行）2、在scrapy项目里创建保存记录信息的文件夹3、执行命令：　　scrapy crawl 爬虫名称 -s JOBDIR=保...

2018-08-01 16:12:37 12612 4

转载为何大量网站不能抓取?爬虫突破封禁的6种常见方法

为何大量网站不能抓取?爬虫突破封禁的6种常见方法在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 U...

2018-08-01 10:16:10 242