- 博客(6)
- 资源 (9)
- 收藏
- 关注
转载 大数据学习之Kafka原理总结
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Li...
2018-08-28 15:24:09 626 1
转载 hadoop探索之 浅析 Secondary NameNode(辅助namenode)
在初学Hadoop时,有个让人疑惑的概念:Secondary NameNode,也叫辅助namenode。从命名看,好像是第二个namenode,用于备份主namenode,在主namenode失败后启动。那么,Secondary NameNode的作用是什么?是如何工作的?一,NameNode HDFS集群有两类节点以管理者和工作者的工作模式运行,namenode就是其中的管理者。它管理着...
2018-08-09 19:07:18 333
转载 谷歌Chrome浏览器开发者工具教程—JS调试篇
上一篇我们学习了谷歌Chrome浏览器开发者工具的基础功能,下面介绍的是Chrome开发工具中最有用的面板Sources。 Sources面板几乎是最常用到的Chrome功能面板,也是解决一般问题的主要功能面板。通常只要是开发遇到了js报错或者其他代码问题,在审视一遍代码而一无所获之后打开Sources进行js断点调试,几乎能解决8成的代码问题。js断点功能让人兴奋不已,以前只能在IE中靠al...
2018-08-07 13:24:14 366
转载 谷歌Chrome浏览器开发者工具教程—基础功能篇
Chrome(F12开发者工具)是非常实用的开发辅助工具,对于前端开发者简直就是神器,但苦于开发者工具是英文界面,且没有中文,这让很多朋友都不知道怎么用。下载吧小编为大家带来Chrome开发者工具基础功能和高级性能分析器(Timeline、Profiles)的图文详解教程,下面是基础功能篇。提示:右键点击图片选择在新窗口或新标签页中打开可查看大图。一、Elements在Elemen...
2018-08-07 13:22:40 2004
原创 python爬虫进阶之scrapy的暂停与重启
scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一:1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行)2、在scrapy项目里创建保存记录信息的文件夹3、执行命令: scrapy crawl 爬虫名称 -s JOBDIR=保...
2018-08-01 16:12:37 12612 4
转载 为何大量网站不能抓取?爬虫突破封禁的6种常见方法
为何大量网站不能抓取?爬虫突破封禁的6种常见方法 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 U...
2018-08-01 10:16:10 242
chrome-linux.zip
2019-08-13
chrome-win.zip
2019-08-13
c++函数模板和类模板计实验报告
2017-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人