自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(17)
  • 收藏
  • 关注

转载 Numpy多项式函数

多项式函数是变量的整数次幂与系数的乘积之和,可以用下面的数学公式表示:f(x) = a[n]*x^n + a[n-1]*x^(n-1) + … + a[2]*x^2 + a[1]*x + a[0] 由于多项式函数只包含加法和乘法运算,因此它很容易计算,并且可以用于计算其他数学函数的近似值。多项式函数的应用非常广泛,例如在嵌入式系统中经常会用它计算正弦、余弦等函数。在Nump...

2017-03-31 14:47:00 758

转载 python结巴(jieba)分词

python结巴(jieba)分词一、特点1、支持三种分词模式:  (1)精确模式:试图将句子最精确的切开,适合文本分析。  (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。  (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2、支持繁体分词3、支持自定义词典二、实现结巴分词的实现原理主要有一下三...

2017-01-08 22:37:00 259

转载 (九)groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark

groupByKey,reduceByKey,sortByKey算子视频教程:1、优酷2、 YouTube1、groupByKeygroupByKey是对每个key进行合并操作,但只生成一个sequence,groupByKey本身不能自定义操作函数。java: 1 package com.bean.spark.trans; 2 3...

2017-01-08 18:30:00 174

转载 (八)map,filter,flatMap算子-Java&Python版Spark

map,filter,flatMap算子视频教程:1、优酷2、YouTube1、mapmap是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的JavaRDD。java: 1 package com.bean.spark.trans; 2 3 import java.util.Arra...

2017-01-05 10:33:00 156

转载 (七)Transformation和action详解-Java&Python版Spark

Transformation和action详解视频教程:1、优酷2、YouTube什么是算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。算子分类:具体:1、Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。2、Key-Value数据类型的Transfrom...

2017-01-05 10:24:00 223

转载 (六)Spark-Eclipse开发环境WordCount-Java&Python版Spark

Spark-Eclipse开发环境WordCount视频教程:1、优酷2、YouTube安装eclipse解压eclipse-jee-mars-2-win32-x86_64.zipJavaWordcount解压spark-2.0.0-bin-hadoop2.6.tgz创建Java Project-->Spark将spark-2.0....

2017-01-05 10:22:00 113

转载 (五)什么是RDD-Java&Python版Spark

什么是RDD视频教程:1、优酷2、YouTube  RDD是个抽象类,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据,诸如map、flatMap、filter等转换操作,除此之外,RDD还提供了诸如join...

2017-01-05 10:09:00 112

转载 (四)Spark集群搭建-Java&Python版Spark

Spark集群搭建视频教程1、优酷2、YouTube安装scala环境下载地址http://www.scala-lang.org/download/上传scala-2.10.5.tgz到master和slave机器的hadoop用户installer目录下两台机器都要做[hadoop@master installer]$ lshado...

2017-01-05 10:07:00 109

转载 (三)Spark集群搭建-Java&Python版Spark

Spark-Hadoop集群搭建视频教程:1、优酷2、YouTube配置java启动ftp[root@master ~]# /etc/init.d/vsftpd restart关闭 vsftpd: [失败]为 vsftpd 启动 vsftpd: ...

2017-01-05 10:04:00 140

转载 (二)Spark-Linux环境准备-Java&Python版Spark

Spark-Linux环境准备视频教程:1、优酷2、YouTube硬软件环境1、虚拟机:VMware Workstation 122、虚拟机操作系统:RedHat5u4,单核,1G内存,2两台3、虚拟机运行环境:java version "1.7.0_79" 64位Scala version 2.10.5hadoop-2.6.0spark...

2017-01-05 09:48:00 78

转载 (一)Spark简介-Java&Python版Spark

Spark简介视频教程:1、优酷2、YouTube简介:  Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和Gr...

2017-01-05 09:44:00 229

转载 关于Http状态码

Http状态码表示Http协议所返回的响应的状态。比如客户端向服务器发送请求,如果成功的获得请求的资源,则返回的状态码为200,表示相应成功。如果请求的资源不存在,则通常返回404错误。 Http状态码通常分为5种类型,分别由1~5五个数字开头,由3位整数组成。1xx通常用作实验用途。这一章节主要介绍2xx、3xx、4xx、5xx等常用的几种状态码。...

2016-02-05 14:31:00 87

转载 hadoop作业调度策略

一个Mapreduce作业是通过JobClient向master的JobTasker提交的(JobTasker一直在等待JobClient通过RPC协议提交作业),JobTasker接到JobClient的请求后把其加入作业队列中。 DataNode节点的TaskTracker一直通过RPC(RPC--远程过程调用协议它是一种通过网络从远程计算机上请求服务,而不需要了解...

2015-12-11 20:16:00 230

转载 自定义输出格式

自定义输出数据的格式、输出路径、输出文件名输出格式OutputFormat1、OutputFormat 抽象类2、FileOutputFormat 文件输出格式3、TextOutputFormat 文本格式的文件输出格式4、SequenceFileOutputFormat 普通序列文件输出格式5、SequenceFileAsBinaryOutputFormat 二...

2015-12-10 23:35:00 139

转载 平均成绩

"平均成绩"主要目的还是在重温经典"WordCount"例子,可以说是在基础上的微变化版对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩,如果有多门学科,则每门学科为一个文件。要求在输出中每行有两个间隔的数据,其中,第一个代表学生的姓名,第二个代表其平均成绩。数据准备amath张三88李四99王五66...

2015-12-10 20:48:00 172

转载 数据排序

"数据排序"是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础。对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。要求在输出中每行有两个间隔的数字,其中,第一个代表原始数据在原始数据集中的位次,第二个代表原始数据。数据准备file1:23265...

2015-12-10 19:45:00 162

转载 数据筛选

数据准备route_logApr2311:49:54hostapd:wlan0:STA14:7d:c5:9e:fb:84Apr2311:49:52hostapd:wlan0:STA74:e5:0b:04:28:f2Apr2311:49:50hostapd:wlan0:STAcc:af:78:cc:d5:5dApr2311:49:...

2015-12-10 19:36:00 104

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除