- 博客(12)
- 资源 (13)
- 问答 (1)
- 收藏
- 关注
转载 Python爬虫入门(六)爬取披头士乐队历年专辑封面-网易云音乐
一、前言前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图。通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小。我的例子怎么都是爬取图片?(谁让你总是跟设计师小伙伴一起玩耍。。。)看来图片对于设计师来说还是有着很深的情节,那就看他用这些图片能做出什么样的作品啦,期待一下,后续会展示一下他的作品。其实爬取网易
2017-02-28 10:11:39 2216
转载 Python爬虫入门(五)PhatomJS+Selenium第二篇
一、前言前文介绍了PhatomJS 和Selenium 的用法,工具准备完毕,我们来看看如何使用它们来改造我们之前写的小爬虫。我们的目的是模拟页面下拉到底部,然后页面会刷出新的内容,每次会加载10张新图片。大体思路是,用Selenium + PhatomJS 来请求网页,页面加载后模拟下拉操作,可以根据想要获取的图片多少来选择下拉的次数,然后再获取网页中的全部内容。
2017-02-28 10:06:05 787
转载 Python爬虫入门(四)PhatomJS+Selenium第一篇
一、前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页。所以不能够通过页码获取页面的url来分别发送网络请求。我也尝试了其他方式,比如下拉的时候监控http请求,看看请求是否有规律可以模拟。后来发现请求并没有规律,也就是不能够模拟http请求来获取新的数据(也可能是我水平有限,哪位童鞋找到了规律一定要告诉我哦)。那么就只有模拟
2017-02-28 10:04:13 1045
转载 Python爬虫入门(三)BeautifulSoup库
一、前言上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据。这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。update on 2016-12-28:之前忘记给BeautifulSoup的官网了,今天补上,顺便再补点BeautifulSoup的用法。二、运行环境我的运行环境如下:
2017-02-28 10:00:12 4589
转载 Python爬虫入门(二)requests库
一、前言为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据。网络上的模块、库、包指的都是同一种东西,所以后文中可能会在不同地方使用不同称谓,不要迷惑哦。结合一个实例来讲解吧。我的一个设计师小伙伴常去一些设计类网站收集素材,其中有个网站Unsplash里面美图特别多,所以想要把里面的图片都保存下来,这样咱们
2017-02-28 09:52:08 1220
转载 Python爬虫入门(一)写在前面
一、前言你是不是在为想收集数据而不知道如何收集而着急?你是不是在为想学习爬虫而找不到一个专门为小白写的教程而烦恼?Bingo! 你没有看错,这就是专门面向小白学习爬虫而写的!我会采用实例的方式,把每个部分都跟实际的例子结合起来帮助小伙伴儿们理解。最后再写几个实战的例子。我们使用Python来写爬虫,一方面因为Python是一个特别适合变成入门的语言,另一方面,P
2017-02-28 09:45:49 802
转载 ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台
日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。通常,日志被分散的储存不同的设备上。如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理,例如:开
2017-02-23 17:26:52 1020
原创 MapReduce工作原理图文详解
1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程 正文: 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要
2017-02-19 16:03:58 174
转载 Hadoop源码分析之心跳机制
一.心跳机制1. hadoop集群是master/slave模式,master包括Namenode和Jobtracker,slave包括Datanode和Tasktracker。2. master启动的时候,会开一个ipc server在那里,等待slave心跳。3. slave启动时,会连接master,并每隔3秒钟主动向master发送一个“心跳”,这个时间可 以通过”
2017-02-19 11:56:26 500
转载 Hadoop中HDFS工作原理
Hadoop其实并不是一个产品,而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS,所以这里看一下它的工作原理,以及相应的介绍下配置。什么是HDFS?Hadoop Distributed File System,字面意思,Hadoop分布式文件系统,通俗的讲,就是可以将不同节点的设备用来存储。它分为两个部分:NameNode和
2017-02-16 10:41:32 639
转载 Git撤销git commit 但是未git push的修改
1. 找到上次Git commit的 id git log 找到你想撤销的commit_id2. git reset --hard commit_id 完成撤销,同时将代码恢复到前一commit_id 对应的版本。3. git reset commit_id 完成Commit命令的撤销,但是不对代码修改进行撤销,可以直接通过g
2017-02-16 09:51:11 3543
原创 在linux centos下列出文件夹和文件的目录树结构的方式方法
查看当前目录下所有的目录和文件命令如下:ls -aR若要查看目录树结构,则直接使用tree命令即可若tree命令不可用(即没有安装tree这个包),可以使用yum install tree命令先安装tree,安装成功后即可使用若只需列出下面一级,非全部,可以使用如下命令:ls -l *
2017-02-06 16:55:29 14858
spring boot 配置redis缓存
2016-04-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人