自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 sagemaker common data formats

在aws上导入数据对模型进行训练和推理需要进行数据的序列化、反序列化,模型的序列化、反序列化 (数据流和结构化数据之间的转换)其中数据的反序列化和模型的序列化直接有程序完成,模型的反序列化是可选操作。主要需要用户设置的是数据的序列化。training data formats在训练时,使用protobuf recordIO结构能够优化训练过程,这是因为讲结构化的数据转换成了流式数据,能够使...

2018-09-27 10:59:54 363

原创 Protocol Buffer简介

protocal buffer 是google开发的处理结构化数据的工具(拥有多种属性的数据)如name: sanwangid:12345email: sanwang@126.com 当需要将这些结构化的数据持久化或进行网络传输时,需要将其序列化,所谓序列化指将结构化数据变为数据流的格式,简单来说就是转变为字符串。如何讲结构化的数据序列化,并将序列化的数据还原出原来的结构化...

2018-09-27 09:04:48 363

原创 spark 基础八 MLlib

MLlib是spark中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的,设计理念非常简单:把数据以RDD形式表示,然后在分布式数据集上调用各种算法。可以将其看作RDD上一系列可供调用的函数的集合。MLlib中只包含能够在集群上运行良好的并行算法。MLlib的算法适用于大规模数据集,如果要在许多小规模数据集上训练各机器学习模型,最好还是在各节点上使用单节点的机器学习算法库实现,比如sp...

2018-08-31 13:46:49 204

原创 spark 基础七 spark streaming

spark streaming 使用离散化流DStream作为抽象表示。DStream是随时间退役而受到的数据的序列,在内部,每个时间区间收到的数据都作为RDD存在,DStream时由这些RDD所组成的序列。DStream支持两种操作:转化操作生成新的DStream,输出操作将数据写入外部系统。除了提供RDD类似的操作外,还增加了与时间相关的新操作。与批处理程序不同,streaming需要进行...

2018-08-31 09:40:35 197

原创 spark基础 六 spark SQL

可以从各种结构化数据源中读取数据 JSON Hive等不仅支持在spark内使用SQL语句进行数据查询,也支持从类似商业软件中通过标准数据库连接器连接spark SQL进行查询在spark内部使用spark SQL时,支持SQL与常规的python java scala代码整合spark SQL 提供一种特殊的RDD, schemaRDD,存放Row对象,每个Row对象代表一行记录,在...

2018-08-30 11:00:12 218

原创 spark 基础 五 集群模式

1spark 运行时的架构:spark集群采用主从结构,中央协调节点称为驱动器节点 driver node,与之对应工作节点称为执行器节点 executor。驱动节点和大量的执行器节点进行通信。spark通过集群管理器cluster manager的外部服务在集群中的及其上启动分配调度 spark驱动器是执行程序中main方法,执行用户编写的用来创建sparkcontext,创建RDD...

2018-08-29 17:21:53 214

原创 spark基础四 累加器 广播变量 pipe

1累加器使用map等函数时,可以使用驱动器程序中定义的变量,但集群中运行的每个任务都会得到这些变量的一个新的副本,更新这些副本的值也不会影响驱动器中的对应变量。spark中有两个共享变量,累加器和广播变量,可以实现集群中的共享。累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法blacnklines= sc.accumulator(0)final Accumulator&lt...

2018-08-29 15:12:46 202

原创 spark 基础 二 数据读取与保存

spark 本身基于Hadoop生态圈构建,可以通过hadoop mapreduce框架的InputFormat 和OutputFormat 接口访问数据,大部分的文件格式与存储系统如S3、HDFS、Cassandra、HBase等都支持这种接口spark会根据文件扩展名选择对应处理方式 1读取/保存文本文件textFIle()读取一个文本文件,生成RDD,输入的每一行成为RDD中...

2018-08-29 11:03:19 545

原创 aws EMR 调试

通过CLI工具创建、交互shell调用aws cli 首先在终端中输入aws configure 按照要求输入credentials.csv中的ID,key创建EMR clusteraws emr create-cluster --name "Spark cluster" --release-label emr-5.16.0 --applications Name=Spark \...

2018-08-28 14:54:08 1075

原创 spark 基础(一)RDD

RDD resilient distributed dataset  弹性分布式数据集在spark 中对数据的所有操作均可归类为:创建RDD,转化已有RDD,调用RDD操作求值。每个RDD可以被分为多个分区,这些分区运行在集群的不同节点上,RDD可以包含python,scala,java等任意类型的对象。创建RDD方法;1 读取外部数据集 SparkContext.textFile...

2018-08-27 17:12:16 280

原创 皮尔逊相关系数mapreduce实现

mapreduce框架/key 由mapreduce生成,可忽略value 矩阵中的一行map(key,value){  double [] arr =line.split(","); int size = arr.length; for(int i =0; i<size-1;i++){    for (int j =i+1; j<size;j++){ ...

2018-08-27 13:41:02 417

原创 cmake 更新跳坑

在linux下更新cmake容易出错,尝试了好几个解决方案后最终成功的方法:卸载cmake cmake-data下载源代码,解压,确认解压后的文件夹内有bootstrap文件cd到此文件夹,依次运行以下指令./bootstrap --prefix=/usr/local(会在/usr/local/bin/中生成三个文件cmake,ctest,cpack)makesudo ma...

2018-08-26 14:12:56 895

原创 Hive简介

Hive是基于Hadoop文件系统上的数据仓库架构,为数据仓库的管理提供了很多功能:数据的抽取转换加载工具/存储管理和大型数据集的查询和分析能力,还定义了类SQL语言 Hive QL 允许用户进行和SQL相似的操作,同样允许开放人员方便的使用mapper和reducer操作。但Hive 延迟较高,不适合小数据集,适合稳定的大规模数据集的批量任务。...

2018-08-23 11:13:27 92

原创 亚马逊EMR 熟悉

Amazon EMR 是一个托管集群平台,可简化在AWS上运行大数据框架(Hadoop 和spark)以处理和分析海量数据的操作。借助相关的开源项目(Hive和Pig), 处理数据和商业只能工作负载。还可以使用EMR转换大量数据和将大量数据移入和移出其他AWS数据存储和数据库如S3和DynamoDB。集群(cluster) ,一组EC2实例的集合,每一个节点都有不同的角色即节点类型主节点;...

2018-08-23 11:07:16 937

原创 amazon 云平台入门

一 基本概念   1 Amazon Elastic Compute Cloud (Amazon EC2)        在 Amazon Web Services (AWS) 云中提供可扩展的计算容量。使用 Amazon EC2 可避免前期的硬件投入,因此您能够快速开发和部署应用程序。通过使用 Amazon EC2,您可以根据自身需要启动任意数量的虚拟服务器、配置安全和网络以及管理存储。A...

2018-08-22 20:56:37 1087

原创 spark 朴素贝叶斯

P(c/x)=P(X/C)P(C)/P(X)argmax(P(C/X))=argmax(P(X/C)P(C))=argmax(IIP(Xi/c)P(C))Mapreduce 解决方案 第一阶段 用训练数据建立分类器//key 忽略 value 一个样本,包含了各属性值以及分类map(key,value){ String [] tokens =value.split(",...

2018-08-17 13:49:21 527

原创 Spark KNN实现

R:查询数据集 S:训练数据集需要对R中每一个元素计算与S中每一个元素的距离可以首先计算得到两个数据集的笛卡尔积用map找到distancegroupBykey同一个r的distance 找出其中的KNN public class KNN{ public static void main(String[] args) throws Exception{     ...

2018-08-16 17:04:13 2044

原创 hadoop/spark k均值聚类

// k 期望的簇数//delta 可接受的收敛误差//data 输入数据kmeans(k,delta,data){//初始化簇质心initial_centroids=pick(k,data);//利用这个方法向映射器广播中心writeToHDFS(initial_centroids);//必要时迭代current_centroids=initial_centr...

2018-08-16 14:26:02 257

原创 Hadoop/spark 马尔科夫 邮件营销

一阶马尔科夫:系统在t+1时刻的状态仅由t时刻状态决定 时序交易 Mapreduce 输入 customerID, transactionID, pusechasedate amount输出 customerID, (Date1, amount1)(Date2,amount2)(Date3,amount3)...(DateN,AmountN) 用其表示马尔科夫链,最终求转移矩阵...

2018-08-16 11:12:10 409

原创 基于用户评分的电影推荐 Hadoop/spark实现

Mapreduce框架输入 user1 movie1 ratingmapreduce 1阶段map(<user>,<movie>,<rating>){       k2=movie;        v2=Tuple2(user, rating);         emit(ke,v2) }//key =movie// valu...

2018-08-15 09:09:40 1706

原创 Mapreduce 推荐引擎

购买过该商品的顾客还购买过哪些商品  给一个商品,推荐购买过这个商品的用户经常购买的五件产品输出是键值对,键是商品,值是5个商品的列表map1//key=userid value=useriD购买过的产品map (userID,item){        emit(userID,item);}reduce1reduce(userID,item[i1,i2,...in])...

2018-08-15 08:17:33 368

原创 hadoop/saprk 共同好友

Mapreduce算法输入key value key是用户 value是用户的好友列表 ,构造新的key 是用户和其中一个好友,value是 用户的其余的好友列表,在归约器中求相同key 的value的交集map(key, value){        reducevalue=(<friend1><friend2>...<friendn>);  ...

2018-08-14 14:38:35 144

原创 Hadoop/spark 购物篮分析

Hadoop  Mapreduce 形式化映射器//key 交易ID 忽略//value 交易商品(i1,i2,...in)map(key,value){          (s1,s2,...sn)=sort(i1,i2,...in);             List<Tuple2<si,sj>> listofpairs=Combinations...

2018-08-14 11:19:20 698

原创 Hadoop/Spark 左外连接

左外连接SELECT filed_1,filed_2..FROM T1 LEFT OUTER JOIN T2ON T1.k=T2.kgroup by  filed_1 MapReduce 两个阶段 第一个阶段 找出所有售出的商品及关联的地址 第二个阶段统计售出的商品的地址个数public class LeftOuterJoin{     //读取输入参数    ...

2018-08-13 17:41:32 657

原创 hadoop/saprk Top 10列表

Java Top Nstatic SortedMap<Integer,T> topN(List<Tuple2<T,Integer>>,L,int N){       if ((L==null)||(L.isEmpty())){                        return null;}        SortedMap<Int...

2018-08-13 14:58:04 221

原创 hadoop/spark 二次排序

map传入到reduce时,是按键排序的,但键内的值序列是无序的,如果要想构造有序的值序列,需要二次排序,构造组合中间键,让MapReduce框架执行排序 //中间键的排序顺序DateTemperaturePair类 public class DateTemperaturePair        implements Writable, WritableComparable...

2018-08-13 08:35:56 223

原创 hadoop初探

MapReduce是一个软件框架没采用并行、分布式处理GB、tb的数据,同时也是一个在商用服务器集群上完成大规模数据处理的执行框架,由google提出,目标是实现可伸缩性使用MapReduce时,重点是编写两个函数:map()映射    过滤和聚集数据 (key1,value1)->(key2,value2)主节点得到输入后,将输入划分为较小的数据块,将这些数据块分不到工作节点上...

2018-08-09 16:07:44 144

原创 spark 初探

scalaobject ScalaApp{      def main(args: Array[String]) {            val sc = new SparkContext("local[2]","first spark app")            val data = sc.textFile("data/UserPurchaseHistory.csv")...

2018-08-07 16:49:49 96

原创 spark streaming 在线学习

// 创建流数据生成器// 随机线性回归数据的生成器 object StreamingModelProducer {   import breeze.linalg._   def main (args:Array[String]){         val MaxEvents = 100         val NumFeatures = 100         v...

2018-08-07 16:07:07 514

原创 spark streaming 应用

build.sdt name := "scala-spark-streaming-app" version :="1.0"scalaVersion :="2.10.4"libarayDependencies += "org.apache.spark" %% "spark-mllib" %"1.1.0"libraryDependencies +="org.a

2018-08-07 15:05:21 112

原创 amazon sagemaker 练习

亚马逊的sagemaker 提供了模型训练到部署的全流程支持,下面这个例子是其参考手册的入门例子,记录一下整体流程,具体代码操作可以查看其手册。1 创建Amazon账号,建立IAM 用户(identify and access management)2 建立 S3 bucket (Amazon simple storage service ) 用于存放训练数据和调优后的模型代码/模型工件(mode...

2018-06-21 16:05:26 4436 1

原创 windows 离线 安装tensorflow

办公室台式机不能联网,因此安装tensorflow比较费时,现把步骤总结如下:电脑之前安装了anaconda 但只包含python2.7,1创建环境py3,此时,由于离线,不能自动安装python3.5,需要后续手动安装conda create -n py3 --clone root这样在新环境py3中之前所有的包都可以用2 在py3中安装更新py3.5下载python

2018-03-26 17:06:27 374

原创 hmmlearn 快速安装

直接在https://www.lfd.uci.edu/~gohlke/pythonlibs/上下载相应版本的whl文件(此文件非常小才100K左右)然后pip install ****whl如果下载官网上的tar.gz安装报错提示未安装c++ 9.0,不明白原因,还未安装vcforpython,不确定exe文件直接安装后是否需要后续设置

2018-03-19 15:54:14 2666

原创 anaconda 第三方安装包(gensim) 离线安装

最近在按照《python机器学习经典案例》学习,在第六章中需要安装gensim。我的电脑是使用anaconda的,但悲催的是公司电脑不能联网,导致安装gensim的时候非常麻烦,不能在线安装,在线安装的好处是,如果其依赖的包之前安装的话,会自动下载安装。我只能采用离线安装的方式 下载tar.gz文件包,解压,在anaconda中python setup.py install,很多包需要手动安装,坑...

2018-03-19 13:21:39 9418

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除