2018年06月_slx_share

12月 11月 10月 09月 06月 05月 04月

原创 Hadoop学习笔记

Hadoop分布式文件系统(HDFS): HDFS是一种用户空间文件系统，说白了就是管理文件的代码是运行在OS上的，使得文件系统易修改，安全灵活。同时是一种分布式存储文件的系统，这使得扩容非常方便，且数据不易丢失。基本数据块数据传送的基本元，简单地理解就是一次写入或读取的最大连续的数据块。数据块越大，IO耗费越低。hdfs默认是64M，可根据需要增大到128M，甚至1G。数据保护 ...

2018-06-24 10:10:47 425

原创 Paxos算法详解

Paxos算法是分布式系统的一个基础架构。

2018-06-24 10:02:55 1491

作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。, 《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南，讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外，本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据，以及有关爬取技术的更多真相，比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫，并对一些真实的网站进行了爬取。, 《用Python写网络爬虫》介绍了如下内容：, 通过跟踪链接来爬取网站；, 使用lxml从页面中抽取数据；, 构建线程爬虫来并行爬取页面；, 将下载的内容进行缓存，以降低带宽消耗；, 解析依赖于JavaScript的网站；, 与表单和会话进行交互；, 解决受保护页面的验证码问题；, 对AJAX调用进行逆向工程；, 使用Scrapy创建高级爬虫。, 本书读者对象, 本书是为想要构建可靠的数据爬取解决方案的开发人员写作的，本书假定读者具有一定的Python编程经验。当然，具备其他编程语言开发经验的读者也可以阅读本书，并理解书中涉及的概念和原理。

2018-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人