自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王小雷-多面手

专注大数据架构,商业合作[email protected]

  • 博客(34)
  • 资源 (12)
  • 收藏
  • 关注

原创 Firefox离线安装扩展教程

Firefox离线安装扩展教程应网友求助在上传了需要的扩展资源后,顺便写个离线安装方法,其实百度也行,这不写下来后为需求者省事。(*^__^*)相当简单 前提是有.xpi的资源如 Decentraleyes(firefox扩展) 两步:第一步:下载完毕后拖动到Firefox窗口处第二步:点击安装 ~~~~完成对应博文 解决stackoverflow打开慢不能注册登录

2016-01-21 18:26:02 18556

原创 Hadoop YARN学习之重要术语总结(6)

Hadoop YARN学习之重要术语总结(6) - SLA服务等级 - RM(ResourceManager) - AM(ApplicationMaster) - NM(NodeMaster) - MPI(Message Passing Interface) - FIFO(First In First Out) - ACL访问控制列表 - CLC(Container Launch C

2016-01-21 17:36:02 958

原创 Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari(5)

Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari(5)1.0 监控ResourceManager进程Java虚拟机中堆空间的特定部分。jstat工具,在JDK的bin目录,可以显示大量JVM统计信息。1.1 JVM分析一个Java虚拟机(JVM)进程被分为3个区(代),具体分为年轻代(young generation)、年老代(tenured generation)和

2016-01-21 17:26:04 3396

原创 Hadoop YARN学习之监控集群监控Nagios(4)

doop YARN学习之监控集群监控Nagios(4)1. Nagios是一个流行的开源监控工具,可以用来监控Hadoop集群。2. 监控基本的Hadoop服务调试好脚本后命名为chek_resource_manager.sh,并把它放在Nagios的插件目录中。加载Nagios插件向hadoop-cluster.cfg添加如下信息 define command{ com

2016-01-21 17:24:39 2706 2

原创 Hadoop YARN学习之组件功能简述(3)

Hadoop YARN学习之组件功能简述(3)1. YARN的三大组件功能简述:ResourceManager(RM)是集群的资源的仲裁者, 它有两部分:一个可插拔的调度器和一个ApplicationManager,用于管理集群中的用户作业。NodeManager,位于每个节点上,管理该节点上用户作业和工作流。ApplicationMaster,用户作业生命周期管理者。 是用户应用程序驻留

2016-01-21 16:55:26 1468

原创 Hadoop YARN学习之核心概念(2)

Hadoop YARN学习之核心概念(2)1. Hadoop 2.X YARN引入的新服务1.1 新的ResourceManager纯碎作为资源调度器,是集群资源的唯一仲裁者; 1.2 用户应用程序(包括MapReduce作业),通过一个新的ApplicationMaster组件请求一定的资源,与Resource协商; 1.3 从而在集群中创建该应用的Container;2. YARN的引入不会

2016-01-21 16:20:56 959

原创 Hadoop YARN学习之Hadoop框架演进历史简述

Hadoop YARN学习之Hadoop框架演进历史简述(1)1. Hadoop在其发展的过程中经历了多个阶段:阶段0:Ad Hoc集群时代 标志着Hadoop的起源,集群以Ad Hoc、单用户方式建立阶段1:Hadoop on Demand(HOD) 是进化过程中的下一个阶段,以一种通用系统的形式,在商用硬件组成的共享集群上提供和管理私有Hadoop MapReduce和HDFS实例。阶

2016-01-21 15:54:41 1190

原创 sh/bash/csh/Tcsh/ksh/pdksh等shell本质区别

sh/bash/csh/Tcsh/ksh/pdksh等shell本质区别1. Shell脚本的书写在写叫Shell脚本时候,往往第一行有注明用什么解释器来解释这个脚本。如#!/bin/bash即用/bin/bash这个解释器来解释接下来的语句。还有如#!/bin/cshShell脚本的一般后缀是.sh2. Shell的类型(以下列出相对流行的shell,但不是全部)sh(全称Bourne

2016-01-20 15:44:45 12209

原创 Spark学习之基于MLlib的机器学习

Spark学习之基于MLlib的机器学习1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定。2. MLlib完成文本分类任务步骤:(1)首先用字符串RDD来表示你的消息(2)运行MLlib中的一个特征提取(feature extraction)算法来把文本数据转换为数值特征(适合机器学习算法处理);该操作会返回一个向量RDD。

2016-01-19 15:55:19 2197

原创 Spark学习之Spark Streaming(9)

Spark学习之Spark Streaming(9)1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码。2. Spark Streaming使用离散化(discretized steam)作为抽象表示,叫做DStream。DStream是随时间推移而收到的数据的序列。3. DSteam支持两种操作:转换操作(tra

2016-01-19 15:02:17 1306

原创 Spark学习之Spark SQL(8)

Spark学习之Spark SQL(8)1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、2. Spark SQL的三大功能2.1 Spark SQL可以从各种结构化数据(例如JSON、Hive、Parquet等)中读取数据。2.2 Spark SQL不仅支持在Spark程序内使用SQL语句进行查询,也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器

2016-01-19 14:57:07 1634

原创 Spark学习之Spark调优与调试(7)

Spark学习之Spark调优与调试(7)1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项。当创建一个SparkContext时就会创建一个SparkConf实例。2. Spark特定的优先级顺序来选择实际配置:优先级最高的是在用户代码中显示调用set()方法设置选项;其次是通过spark-submit传递的参数;再次是写在配置文件里的值;最后是系统的默认值。3.

2016-01-19 14:54:47 1200

原创 Spark学习之在集群上运行Spark(6)

Spark学习之在集群上运行Spark(6)1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。3. Spark在分布式环境中的架构:Created with Raphaël 2.1.0我的操作集群管理器Mesos、YARN、或独立集群管理器N个集群工作节点(执行器进程)Spark集群采用的是主

2016-01-19 12:26:26 1594

原创 Spark学习之编程进阶——累加器与广播(5)

Spark学习之编程进阶——累加器与广播(5)1. Spark中两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable)。累加器对信息进行聚合,而广播变量用来高效分发较大的对象。2. 共享变量是一种可以在Spark任务中使用的特殊类型的变量。3. 累加器的用法:* 通过在驱动器中调用SparkContext.accumulator(initialValu

2016-01-15 17:09:01 1634

原创 Spark学习之数据读取与保存(4)

Spark学习之数据读取与保存(4)1. 文件格式Spark对很多种文件格式的读取和保存方式都很简单。如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。2. 读取/保存文本文件Python中读取一个文本文件 input = sc.textfile("file:///home/holen/repos/spark/README.m

2016-01-15 16:07:37 3109

原创 Spark学习之键值对(pair RDD)操作(3)

Spark学习之键值对(pair RDD)操作(3)1. 我们通常从一个RDD中提取某些字段(如代表事件时间、用户ID或者其他标识符的字段),并使用这些字段为pair RDD操作中的键。2. 创建pair RDD1)读取本身就是键值对的数据2)一个普通的RDD通过map()转为pair RDD,传递的函数需要返回键值对。Python中使用第一个单词作为键创建出一个pair RDD pai

2016-01-15 16:06:06 5410

原创 Spark学习之RDD编程(2)

Spark之RDD编程(2)1. Spark中的RDD是一个不可变的分布式对象集合。2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。3. 创建RDD:1)读取一个外部数据集2)在驱动器程序里分发驱动器程序中的对象集合。4. RDD支持的操作:1)转换操作,由一个RDD生成一个新的RDD。2)行动操作,对RDD进行计算结果,并把结果返回到驱动器程序中,或者

2016-01-15 15:07:22 1361

原创 Spark学习之基础相关组件(1)

Spark之基础相关组件(1)1. Spark是一个用来实现快速而通用的集群计算的平台。2. Spark的一个主要特点是能够在内存中进行计算,因而更快。3. RDD(resilient distributed dataset弹性分布式数据集)表示分布在多个计算节点上可以并行操作的元素的集合,是Spark的主要编程抽象。4. Spark是一个大一统的软件栈:4.1 Spark core实现了Spark

2016-01-15 14:48:04 1375

原创 SAS进阶《深入分析SAS》之数据汇总和展现

SAS进阶《深入分析SAS》之数据汇总和展现1. 通过Print过程制作报表proc print <data=数据集>;run;选项:obs=修改观测序号列标签noobs不显示观测序列号id语句在输出中取代观测序列var选择输出的变量where语句选择输出的观测总结如下: proc print data=数据集<选项>; id 变量1<变量2...>;

2016-01-12 14:59:16 1699

原创 程序员必知的LinuxShell命令

程序员必知的LinuxShell命令grep (Globle Regular Expression Print全局正则表达式)命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来 -c:只输出匹配行的计数。 -I:不区分大 小写(只适用于单字符)。 -h:查询多文件时不显示文件名。 -l:查询多文件时只输出包含匹配字符的文件名。 -

2016-01-12 09:04:40 1163

原创 Python之数据聚合与分组运算

Python之数据聚合与分组运算1. 关系型数据库方便对数据进行连接、过滤、转换和聚合。2. Hadley Wickham创建了用于表示分组运算术语“split-apply-combine”(拆分-应用-合并)。3. GroupBy的size方法,它可以返回一个含有分组大小的Series。4. gorupby对分组进行迭代,可以产生一组二元元组(由分组名和数据块组成)。5. 选取一个或以组列对于由G

2016-01-08 15:09:40 3068

原创 Python之绘图和可视化

Python之绘图和可视化1. 启用matplotlib最常用的Pylab模式的IPython(IPython --pylab)2. matplotlib的图像都位于Figure对象中。可以使用plt.figure创建一个新的Figure,不能通过空Figure绘图,必须用add_subplot创建一个或多个subplotaxes[0,1]可以通过sharex和sharey指定subplot应该具

2016-01-07 16:37:09 3144

原创 Python之数据规整化:清理、转换、合并、重塑

Python之数据规整化:清理、转换、合并、重塑1. 合并数据集pandas.merge可根据一个或者多个不同DataFrame中的行连接起来。pandas.concat可以沿着一条轴将多个对象堆叠到一起。实例方法combine_first可以将重复数据编接在一起,用一个对象中的值填充另一个对象中的缺失值。2. 数据风格的DataFrame合并操作2.1 数据集的合并(merge)或连接(ji

2016-01-07 13:56:10 5009

原创 Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas)

Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas)如果还没有本地安装Python、IPython、notebook等请移步上篇 Python,IPython,qtconsole,Notebook,Jupyter快速安装教程 本教程是安装二进制文件,以Windows10 64位操作系统为例,但是二进制文件对应其他Linux和mac os

2016-01-07 09:10:37 11712

原创 Python之pandas数据加载、存储

Python之pandas数据加载、存储与文件格式0. 输入与输出大致可分为三类:0.1 读取文本文件和其他更好效的磁盘存储格式2.2 使用数据库中的数据0.3 利用Web API操作网络资源1. 读取文本文件和其他更好效的磁盘存储格式pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。1.1 pandas中的解析函数: read_csv 从文件、U

2016-01-06 17:57:34 15158

原创 Python之Pandas中Series、DataFrame实践

Python之Pandas中Series、DataFrame实践1. pandas的数据结构Series1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。1.2 Series的字符串表现形式为:索引在左边,值在右边。2. pandas的数据结构DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同

2016-01-06 16:00:33 43061 1

原创 Python在云端编程之IPython notebook

Python在云端编程之IPython notebook如果本地编程考虑到Python版本,机器位数,编译环境,科学栈安装等等繁琐的事,弄得你焦头烂额,不如移步云端,省去这些繁琐过程,在云端编程是很享受的事,当前你只需要:有网,有浏览器——就行!已经内置了科学栈Numpy、pandas等等,不管是科研还新手都可以即刻开始!1.打开网址Wakari(https://wakari.io/)简单注册即可2

2016-01-06 11:05:53 4163

原创 IPython、Notebook、qtconsole使用教程

IPython、Notebook、qtconsole使用教程 上一篇为Python,IPython,qtconsole,Notebook,Jupyter快速安装教程1. 使用IPython自动补全功能,使用tab键,如输入im后按tab键,可自动补全import。进入IPython,CMD中输入ipython退出IPython,CMD中输入quit() 使用魔法指令% %run test.

2016-01-06 08:33:07 26039 1

原创 Python,Jupyter Notebook,IPython快速安装教程

Python,IPython,qtconsole,Jupyter Notebook快速安装教程 下一篇:IPython、Notebook、qtconsole使用教程下一篇Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas) 最近深入Python的数据分析方面,为了进一步优化工具决定自己动手安装,可是看到安装文档基本千篇一律,跟不上版本变

2016-01-05 20:15:21 69118 9

原创 Python之NumPy实践之数组和矢量计算

NumPy实践之数组和矢量计算1. NumPy(Numerical Python)是高性能科学技术和数据分析的基础包。2. NumPy的ndarray:一种对位数组对象。NumPy最重要的一个特点是其N维数组对象(即ndarray),该对象是是一个快速而灵活的大数据集容器。3. 创建ndarray data1 = [1,2.4,4,3,0] arr1 = np.array(data1)

2016-01-05 17:20:19 4396

原创 Python之IPython开发实践

IPython开发实践1. IPython有行号。2. Tab键自动完成,当前命名空间任何与已输入字符串相匹配的变量就会被找出来。3. 内省机制,在变量前或者后面加上(?)问号,就可以将该对象的一些通用信息显示出来。(??)两个问号显示源码。4. (一个下划线)和_(两个下划线)分别表示最近两个输出结果。5. 与操作系统交互。可以执行shell命令,如更改目录、将命令的执行结果保存在Python对象

2016-01-05 14:51:04 1072

原创 Python Base of Scientific Stack(Python基础之科学栈)

Python Base of Scientific Stack(Python基础之科学栈)1. Python的科学栈(Scientific Stack)NumPy NumPy提供度多维数组对象,以存储同构或者异构数据;它还提供操作这一数组对象的优化函数/方法。SciPy SciPy是一组子库和函数,实现科学或者金融中常常需要的重要标准功能;Matplotlib Matpl

2016-01-04 19:00:37 1332

原创 SAS进阶《深入解析SAS》之对多数据集的处理

SAS进阶《深入解析SAS》之对多数据集的处理1. 数据集的纵向串接:数据集的纵向串接指的是,将两个或者多个数据集首尾相连,形成一个新的数据集。据集的横向合并:数据集的横向合并,指的是将两个或者多个数据集根据某种原则横向合并起来,形成新的数据集。2. 数据集的纵向串接两种方法:1)使用SAS DATA步的SET语句。2)使用SAS过程步的APPEND过程。2.1. 使用SET步纵向串接形式如

2016-01-04 13:38:18 5700

原创 Windows10开启热点

1.以网线的连接方式,已经连接。2.打开CMD3. 开启热点3.1设置热点名称和密码netsh wlan set hostednetwork mode=allow ssid=name key=password3.2开启热点netsh wlan start hostednetwork注意:命令最后没有分号

2016-01-02 16:30:48 1034

OBS Mac版 安装包下载 obs-mac-21.0.3-installer

OBS Mac版 安装包下载 obs-mac-21.0.3-installer OBS Studio

2018-03-10

git 桌面版Mac版 下载GitHubDesktopSetup

最新版 git 桌面版Mac 位下载GitHubDesktopSetup git 桌面版Mac 位下载GitHubDesktopSetup

2018-02-10

git 最新版下载 git windows 32位下载

最新版 Git-2.16.1-32-bit.exe git windows 34位下载 Git-2.16.1-32-bit.exe git windows 34位下载

2018-02-10

postgresql数据库建模工具pgmodeler-0.9.1-alpha1-demo-macos

postgresql 数据库建模工具 pgmodeler-0.9.1-alpha1-demo-macos

2018-01-19

.rncache React-Native 0.47第三方包

Mac os react native rncache https://github.com/facebook/react-native/blob/0.47-stable/scripts/ios-install-third-party.sh

2017-08-22

chrome64位windows版浏览器

chrome64位windows版浏览器官方下载,更新时间2016-10-5。。。版本持续更新

2016-10-05

Git64位windows版Git-2.10.1-64-bit.exe

Git64位windows版Git-2.10.1-64-bit.exe,最新版64位Git官方下载,持续更新(2016-10-5)。

2016-10-05

phantomjs-2.1.1-linux-x86_64.tar.bz2

atom markdown转换PDF 解决AssertionError: html-pdf: Failed to load PhantomJS module在用Atom转换PDF时,国内下载很容易失败,所以放上链接。需要的phantomjs-2.1.1-linux-x86_64.tar.bz2。这里是linux版本。放在/tmp/phantomjs.再执行npm install phantomjs-prebuilt。安装教程http://blog.csdn.net/dream_an/article/details/51800523

2016-07-15

hadoo2.6.4 hadoop.dll winutils.exe

hadoop.dll hadoo2.6.4 winutils.exe(Windows10 64位)亲测可用。

2016-07-05

pandoc-1.17.1-1-windows.msi

pandoc-1.17.1-1-windows.msi 官方资源下载 解决jupyter notebook不能到处PDF问题-- nbconvert failed: Pandoc wasn't found.Please check that pandoc is

2016-06-30

Decentraleyes(firefox扩展)

解决打不开如stackoverflow等含有googleAPI的网站,保护您免受集中式的内容交付网络(CDN)的跟踪。它可以拦截许多种链向 CDN 的请求,转而指向本地提供的文件,从而防止网站功能受损。内容拦截规则会定期补充。

2016-01-21

cloudsim3.0.3

cloudsim是云计算技术仿真软件,这是cloudsim3.0.3windows版安装包,安装及使用请参考安装包中readme.txt和examples.txt。内置简单的案例易于进阶,还有一些类供大家实现自己的算法。

2014-12-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除