2017年02月_youzhouliu

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Python爬虫入门（六）爬取披头士乐队历年专辑封面-网易云音乐

一、前言前文说过我的设计师小伙伴的设计需求，他想做一个披头士乐队历年专辑的瀑布图。通过搜索，发现网易云音乐上有比较全的历年专辑信息加配图，图片质量还可以，虽然有大有小。我的例子怎么都是爬取图片？（谁让你总是跟设计师小伙伴一起玩耍。。。）看来图片对于设计师来说还是有着很深的情节，那就看他用这些图片能做出什么样的作品啦，期待一下，后续会展示一下他的作品。其实爬取网易

2017-02-28 10:11:39 2216

转载 Python爬虫入门（五）PhatomJS+Selenium第二篇

一、前言前文介绍了PhatomJS 和Selenium 的用法，工具准备完毕，我们来看看如何使用它们来改造我们之前写的小爬虫。我们的目的是模拟页面下拉到底部，然后页面会刷出新的内容，每次会加载10张新图片。大体思路是，用Selenium + PhatomJS 来请求网页，页面加载后模拟下拉操作，可以根据想要获取的图片多少来选择下拉的次数，然后再获取网页中的全部内容。

2017-02-28 10:06:05 787

转载 Python爬虫入门（四）PhatomJS+Selenium第一篇

一、前言在上一篇博文中，我们的爬虫面临着一个问题，在爬取Unsplash网站的时候，由于网站是下拉刷新，并没有分页。所以不能够通过页码获取页面的url来分别发送网络请求。我也尝试了其他方式，比如下拉的时候监控http请求，看看请求是否有规律可以模拟。后来发现请求并没有规律，也就是不能够模拟http请求来获取新的数据（也可能是我水平有限，哪位童鞋找到了规律一定要告诉我哦）。那么就只有模拟

2017-02-28 10:04:13 1045

转载 Python爬虫入门（三）BeautifulSoup库

一、前言上一篇演示了如何使用requests模块向网站发送http请求，获取到网页的HTML数据。这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。update on 2016-12-28：之前忘记给BeautifulSoup的官网了，今天补上，顺便再补点BeautifulSoup的用法。二、运行环境我的运行环境如下：

2017-02-28 10:00:12 4589

转载 Python爬虫入门（二）requests库

一、前言为什么要先说Requests库呢，因为这是个功能很强大的网络请求库，可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据。网络上的模块、库、包指的都是同一种东西，所以后文中可能会在不同地方使用不同称谓，不要迷惑哦。结合一个实例来讲解吧。我的一个设计师小伙伴常去一些设计类网站收集素材，其中有个网站Unsplash里面美图特别多，所以想要把里面的图片都保存下来，这样咱们

2017-02-28 09:52:08 1220

转载 Python爬虫入门（一）写在前面

一、前言你是不是在为想收集数据而不知道如何收集而着急？你是不是在为想学习爬虫而找不到一个专门为小白写的教程而烦恼？Bingo! 你没有看错，这就是专门面向小白学习爬虫而写的！我会采用实例的方式，把每个部分都跟实际的例子结合起来帮助小伙伴儿们理解。最后再写几个实战的例子。我们使用Python来写爬虫，一方面因为Python是一个特别适合变成入门的语言，另一方面，P

2017-02-28 09:45:49 802

转载 ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，从而及时采取措施纠正错误。通常，日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理，例如：开

2017-02-23 17:26:52 1020

原创 MapReduce工作原理图文详解

1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文： 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图：流程分析：1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要

2017-02-19 16:03:58 174

转载 Hadoop源码分析之心跳机制

一．心跳机制1. hadoop集群是master/slave模式，master包括Namenode和Jobtracker，slave包括Datanode和Tasktracker。2. master启动的时候，会开一个ipc server在那里，等待slave心跳。3. slave启动时，会连接master，并每隔3秒钟主动向master发送一个“心跳”，这个时间可以通过”

2017-02-19 11:56:26 500

转载 Hadoop中HDFS工作原理

Hadoop其实并不是一个产品，而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS，所以这里看一下它的工作原理，以及相应的介绍下配置。什么是HDFS？Hadoop Distributed File System，字面意思，Hadoop分布式文件系统，通俗的讲，就是可以将不同节点的设备用来存储。它分为两个部分：NameNode和

2017-02-16 10:41:32 639

转载 Git撤销git commit 但是未git push的修改

1. 找到上次Git commit的 id git log 找到你想撤销的commit_id2. git reset --hard commit_id 完成撤销,同时将代码恢复到前一commit_id 对应的版本。3. git reset commit_id 完成Commit命令的撤销，但是不对代码修改进行撤销，可以直接通过g

2017-02-16 09:51:11 3543