自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (13)
  • 问答 (1)
  • 收藏
  • 关注

转载 Python爬虫入门(六)爬取披头士乐队历年专辑封面-网易云音乐

一、前言前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图。通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小。我的例子怎么都是爬取图片?(谁让你总是跟设计师小伙伴一起玩耍。。。)看来图片对于设计师来说还是有着很深的情节,那就看他用这些图片能做出什么样的作品啦,期待一下,后续会展示一下他的作品。其实爬取网易

2017-02-28 10:11:39 2216

转载 Python爬虫入门(五)PhatomJS+Selenium第二篇

一、前言前文介绍了PhatomJS 和Selenium 的用法,工具准备完毕,我们来看看如何使用它们来改造我们之前写的小爬虫。我们的目的是模拟页面下拉到底部,然后页面会刷出新的内容,每次会加载10张新图片。大体思路是,用Selenium + PhatomJS 来请求网页,页面加载后模拟下拉操作,可以根据想要获取的图片多少来选择下拉的次数,然后再获取网页中的全部内容。

2017-02-28 10:06:05 787

转载 Python爬虫入门(四)PhatomJS+Selenium第一篇

一、前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页。所以不能够通过页码获取页面的url来分别发送网络请求。我也尝试了其他方式,比如下拉的时候监控http请求,看看请求是否有规律可以模拟。后来发现请求并没有规律,也就是不能够模拟http请求来获取新的数据(也可能是我水平有限,哪位童鞋找到了规律一定要告诉我哦)。那么就只有模拟

2017-02-28 10:04:13 1045

转载 Python爬虫入门(三)BeautifulSoup库

一、前言上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据。这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。update on 2016-12-28:之前忘记给BeautifulSoup的官网了,今天补上,顺便再补点BeautifulSoup的用法。二、运行环境我的运行环境如下:

2017-02-28 10:00:12 4589

转载 Python爬虫入门(二)requests库

一、前言为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据。网络上的模块、库、包指的都是同一种东西,所以后文中可能会在不同地方使用不同称谓,不要迷惑哦。结合一个实例来讲解吧。我的一个设计师小伙伴常去一些设计类网站收集素材,其中有个网站Unsplash里面美图特别多,所以想要把里面的图片都保存下来,这样咱们

2017-02-28 09:52:08 1220

转载 Python爬虫入门(一)写在前面

一、前言你是不是在为想收集数据而不知道如何收集而着急?你是不是在为想学习爬虫而找不到一个专门为小白写的教程而烦恼?Bingo! 你没有看错,这就是专门面向小白学习爬虫而写的!我会采用实例的方式,把每个部分都跟实际的例子结合起来帮助小伙伴儿们理解。最后再写几个实战的例子。我们使用Python来写爬虫,一方面因为Python是一个特别适合变成入门的语言,另一方面,P

2017-02-28 09:45:49 802

转载 ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。通常,日志被分散的储存不同的设备上。如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理,例如:开

2017-02-23 17:26:52 1020

原创 MapReduce工作原理图文详解

1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程 正文: 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图:   流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要

2017-02-19 16:03:58 174

转载 Hadoop源码分析之心跳机制

一.心跳机制1. hadoop集群是master/slave模式,master包括Namenode和Jobtracker,slave包括Datanode和Tasktracker。2. master启动的时候,会开一个ipc server在那里,等待slave心跳。3. slave启动时,会连接master,并每隔3秒钟主动向master发送一个“心跳”,这个时间可 以通过”

2017-02-19 11:56:26 500

转载 Hadoop中HDFS工作原理

Hadoop其实并不是一个产品,而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS,所以这里看一下它的工作原理,以及相应的介绍下配置。什么是HDFS?Hadoop Distributed File System,字面意思,Hadoop分布式文件系统,通俗的讲,就是可以将不同节点的设备用来存储。它分为两个部分:NameNode和

2017-02-16 10:41:32 639

转载 Git撤销git commit 但是未git push的修改

1. 找到上次Git commit的 id     git log      找到你想撤销的commit_id2.  git reset --hard commit_id      完成撤销,同时将代码恢复到前一commit_id 对应的版本。3. git reset commit_id      完成Commit命令的撤销,但是不对代码修改进行撤销,可以直接通过g

2017-02-16 09:51:11 3543

原创 在linux centos下列出文件夹和文件的目录树结构的方式方法

查看当前目录下所有的目录和文件命令如下:ls -aR若要查看目录树结构,则直接使用tree命令即可若tree命令不可用(即没有安装tree这个包),可以使用yum install tree命令先安装tree,安装成功后即可使用若只需列出下面一级,非全部,可以使用如下命令:ls -l *

2017-02-06 16:55:29 14858

中美工程师团队管理经验

中美工程师文化对比,产品导向vs纯技术导向。自下而上的创造力vs自上而下的执行力。工程师的价值定位。

2018-02-05

新媒体与深度学习

新媒体与深度学习,深度学习的数据统计、建模与算法实现。

2018-02-05

品牌广告的架构与实践

品牌广告从信息化到服务化、开放化。服务开放挑战:服务、物料、开放。

2018-02-05

架构本质和大型电商微服务实践

好的架构如优美的散文,形散神不散。高内聚,松耦合,架构的不二法则。

2018-02-05

滴滴出行大数据预测体系之目的地预测

从0到1快速搭建模型,基于互信信息选择主要特征。关键问题求解,从数据中发现规律。

2018-02-05

Storm源码分析

Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。

2018-02-05

spotify广告系统架构

Change in scale.Emergence of new client platforms.

2018-02-05

sql client

sql navicate install file

2016-04-22

git install file

git 64bit install file

2016-04-22

redis-64bit

redis resouse

2016-04-22

apache-maven

maven apache lastest release

2016-04-22

axure 图表 组件库

axure 图表组件库,较全的表格,分页工具的提供.

2015-12-22

axure 线性图 元件库 组件库

axure 图表 柱状图 饼图 线性图 元件库 组件库,好用的

2015-12-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除