- 博客(34)
- 收藏
- 关注
原创 sagemaker common data formats
在aws上导入数据对模型进行训练和推理需要进行数据的序列化、反序列化,模型的序列化、反序列化 (数据流和结构化数据之间的转换)其中数据的反序列化和模型的序列化直接有程序完成,模型的反序列化是可选操作。主要需要用户设置的是数据的序列化。training data formats在训练时,使用protobuf recordIO结构能够优化训练过程,这是因为讲结构化的数据转换成了流式数据,能够使...
2018-09-27 10:59:54 363
原创 Protocol Buffer简介
protocal buffer 是google开发的处理结构化数据的工具(拥有多种属性的数据)如name: sanwangid:12345email: sanwang@126.com 当需要将这些结构化的数据持久化或进行网络传输时,需要将其序列化,所谓序列化指将结构化数据变为数据流的格式,简单来说就是转变为字符串。如何讲结构化的数据序列化,并将序列化的数据还原出原来的结构化...
2018-09-27 09:04:48 363
原创 spark 基础八 MLlib
MLlib是spark中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的,设计理念非常简单:把数据以RDD形式表示,然后在分布式数据集上调用各种算法。可以将其看作RDD上一系列可供调用的函数的集合。MLlib中只包含能够在集群上运行良好的并行算法。MLlib的算法适用于大规模数据集,如果要在许多小规模数据集上训练各机器学习模型,最好还是在各节点上使用单节点的机器学习算法库实现,比如sp...
2018-08-31 13:46:49 204
原创 spark 基础七 spark streaming
spark streaming 使用离散化流DStream作为抽象表示。DStream是随时间退役而受到的数据的序列,在内部,每个时间区间收到的数据都作为RDD存在,DStream时由这些RDD所组成的序列。DStream支持两种操作:转化操作生成新的DStream,输出操作将数据写入外部系统。除了提供RDD类似的操作外,还增加了与时间相关的新操作。与批处理程序不同,streaming需要进行...
2018-08-31 09:40:35 197
原创 spark基础 六 spark SQL
可以从各种结构化数据源中读取数据 JSON Hive等不仅支持在spark内使用SQL语句进行数据查询,也支持从类似商业软件中通过标准数据库连接器连接spark SQL进行查询在spark内部使用spark SQL时,支持SQL与常规的python java scala代码整合spark SQL 提供一种特殊的RDD, schemaRDD,存放Row对象,每个Row对象代表一行记录,在...
2018-08-30 11:00:12 218
原创 spark 基础 五 集群模式
1spark 运行时的架构:spark集群采用主从结构,中央协调节点称为驱动器节点 driver node,与之对应工作节点称为执行器节点 executor。驱动节点和大量的执行器节点进行通信。spark通过集群管理器cluster manager的外部服务在集群中的及其上启动分配调度 spark驱动器是执行程序中main方法,执行用户编写的用来创建sparkcontext,创建RDD...
2018-08-29 17:21:53 214
原创 spark基础四 累加器 广播变量 pipe
1累加器使用map等函数时,可以使用驱动器程序中定义的变量,但集群中运行的每个任务都会得到这些变量的一个新的副本,更新这些副本的值也不会影响驱动器中的对应变量。spark中有两个共享变量,累加器和广播变量,可以实现集群中的共享。累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法blacnklines= sc.accumulator(0)final Accumulator<...
2018-08-29 15:12:46 202
原创 spark 基础 二 数据读取与保存
spark 本身基于Hadoop生态圈构建,可以通过hadoop mapreduce框架的InputFormat 和OutputFormat 接口访问数据,大部分的文件格式与存储系统如S3、HDFS、Cassandra、HBase等都支持这种接口spark会根据文件扩展名选择对应处理方式 1读取/保存文本文件textFIle()读取一个文本文件,生成RDD,输入的每一行成为RDD中...
2018-08-29 11:03:19 545
原创 aws EMR 调试
通过CLI工具创建、交互shell调用aws cli 首先在终端中输入aws configure 按照要求输入credentials.csv中的ID,key创建EMR clusteraws emr create-cluster --name "Spark cluster" --release-label emr-5.16.0 --applications Name=Spark \...
2018-08-28 14:54:08 1075
原创 spark 基础(一)RDD
RDD resilient distributed dataset 弹性分布式数据集在spark 中对数据的所有操作均可归类为:创建RDD,转化已有RDD,调用RDD操作求值。每个RDD可以被分为多个分区,这些分区运行在集群的不同节点上,RDD可以包含python,scala,java等任意类型的对象。创建RDD方法;1 读取外部数据集 SparkContext.textFile...
2018-08-27 17:12:16 280
原创 皮尔逊相关系数mapreduce实现
mapreduce框架/key 由mapreduce生成,可忽略value 矩阵中的一行map(key,value){ double [] arr =line.split(","); int size = arr.length; for(int i =0; i<size-1;i++){ for (int j =i+1; j<size;j++){ ...
2018-08-27 13:41:02 417
原创 cmake 更新跳坑
在linux下更新cmake容易出错,尝试了好几个解决方案后最终成功的方法:卸载cmake cmake-data下载源代码,解压,确认解压后的文件夹内有bootstrap文件cd到此文件夹,依次运行以下指令./bootstrap --prefix=/usr/local(会在/usr/local/bin/中生成三个文件cmake,ctest,cpack)makesudo ma...
2018-08-26 14:12:56 895
原创 Hive简介
Hive是基于Hadoop文件系统上的数据仓库架构,为数据仓库的管理提供了很多功能:数据的抽取转换加载工具/存储管理和大型数据集的查询和分析能力,还定义了类SQL语言 Hive QL 允许用户进行和SQL相似的操作,同样允许开放人员方便的使用mapper和reducer操作。但Hive 延迟较高,不适合小数据集,适合稳定的大规模数据集的批量任务。...
2018-08-23 11:13:27 92
原创 亚马逊EMR 熟悉
Amazon EMR 是一个托管集群平台,可简化在AWS上运行大数据框架(Hadoop 和spark)以处理和分析海量数据的操作。借助相关的开源项目(Hive和Pig), 处理数据和商业只能工作负载。还可以使用EMR转换大量数据和将大量数据移入和移出其他AWS数据存储和数据库如S3和DynamoDB。集群(cluster) ,一组EC2实例的集合,每一个节点都有不同的角色即节点类型主节点;...
2018-08-23 11:07:16 937
原创 amazon 云平台入门
一 基本概念 1 Amazon Elastic Compute Cloud (Amazon EC2) 在 Amazon Web Services (AWS) 云中提供可扩展的计算容量。使用 Amazon EC2 可避免前期的硬件投入,因此您能够快速开发和部署应用程序。通过使用 Amazon EC2,您可以根据自身需要启动任意数量的虚拟服务器、配置安全和网络以及管理存储。A...
2018-08-22 20:56:37 1087
原创 spark 朴素贝叶斯
P(c/x)=P(X/C)P(C)/P(X)argmax(P(C/X))=argmax(P(X/C)P(C))=argmax(IIP(Xi/c)P(C))Mapreduce 解决方案 第一阶段 用训练数据建立分类器//key 忽略 value 一个样本,包含了各属性值以及分类map(key,value){ String [] tokens =value.split(",...
2018-08-17 13:49:21 527
原创 Spark KNN实现
R:查询数据集 S:训练数据集需要对R中每一个元素计算与S中每一个元素的距离可以首先计算得到两个数据集的笛卡尔积用map找到distancegroupBykey同一个r的distance 找出其中的KNN public class KNN{ public static void main(String[] args) throws Exception{ ...
2018-08-16 17:04:13 2044
原创 hadoop/spark k均值聚类
// k 期望的簇数//delta 可接受的收敛误差//data 输入数据kmeans(k,delta,data){//初始化簇质心initial_centroids=pick(k,data);//利用这个方法向映射器广播中心writeToHDFS(initial_centroids);//必要时迭代current_centroids=initial_centr...
2018-08-16 14:26:02 257
原创 Hadoop/spark 马尔科夫 邮件营销
一阶马尔科夫:系统在t+1时刻的状态仅由t时刻状态决定 时序交易 Mapreduce 输入 customerID, transactionID, pusechasedate amount输出 customerID, (Date1, amount1)(Date2,amount2)(Date3,amount3)...(DateN,AmountN) 用其表示马尔科夫链,最终求转移矩阵...
2018-08-16 11:12:10 409
原创 基于用户评分的电影推荐 Hadoop/spark实现
Mapreduce框架输入 user1 movie1 ratingmapreduce 1阶段map(<user>,<movie>,<rating>){ k2=movie; v2=Tuple2(user, rating); emit(ke,v2) }//key =movie// valu...
2018-08-15 09:09:40 1706
原创 Mapreduce 推荐引擎
购买过该商品的顾客还购买过哪些商品 给一个商品,推荐购买过这个商品的用户经常购买的五件产品输出是键值对,键是商品,值是5个商品的列表map1//key=userid value=useriD购买过的产品map (userID,item){ emit(userID,item);}reduce1reduce(userID,item[i1,i2,...in])...
2018-08-15 08:17:33 368
原创 hadoop/saprk 共同好友
Mapreduce算法输入key value key是用户 value是用户的好友列表 ,构造新的key 是用户和其中一个好友,value是 用户的其余的好友列表,在归约器中求相同key 的value的交集map(key, value){ reducevalue=(<friend1><friend2>...<friendn>); ...
2018-08-14 14:38:35 144
原创 Hadoop/spark 购物篮分析
Hadoop Mapreduce 形式化映射器//key 交易ID 忽略//value 交易商品(i1,i2,...in)map(key,value){ (s1,s2,...sn)=sort(i1,i2,...in); List<Tuple2<si,sj>> listofpairs=Combinations...
2018-08-14 11:19:20 698
原创 Hadoop/Spark 左外连接
左外连接SELECT filed_1,filed_2..FROM T1 LEFT OUTER JOIN T2ON T1.k=T2.kgroup by filed_1 MapReduce 两个阶段 第一个阶段 找出所有售出的商品及关联的地址 第二个阶段统计售出的商品的地址个数public class LeftOuterJoin{ //读取输入参数 ...
2018-08-13 17:41:32 657
原创 hadoop/saprk Top 10列表
Java Top Nstatic SortedMap<Integer,T> topN(List<Tuple2<T,Integer>>,L,int N){ if ((L==null)||(L.isEmpty())){ return null;} SortedMap<Int...
2018-08-13 14:58:04 221
原创 hadoop/spark 二次排序
map传入到reduce时,是按键排序的,但键内的值序列是无序的,如果要想构造有序的值序列,需要二次排序,构造组合中间键,让MapReduce框架执行排序 //中间键的排序顺序DateTemperaturePair类 public class DateTemperaturePair implements Writable, WritableComparable...
2018-08-13 08:35:56 223
原创 hadoop初探
MapReduce是一个软件框架没采用并行、分布式处理GB、tb的数据,同时也是一个在商用服务器集群上完成大规模数据处理的执行框架,由google提出,目标是实现可伸缩性使用MapReduce时,重点是编写两个函数:map()映射 过滤和聚集数据 (key1,value1)->(key2,value2)主节点得到输入后,将输入划分为较小的数据块,将这些数据块分不到工作节点上...
2018-08-09 16:07:44 144
原创 spark 初探
scalaobject ScalaApp{ def main(args: Array[String]) { val sc = new SparkContext("local[2]","first spark app") val data = sc.textFile("data/UserPurchaseHistory.csv")...
2018-08-07 16:49:49 96
原创 spark streaming 在线学习
// 创建流数据生成器// 随机线性回归数据的生成器 object StreamingModelProducer { import breeze.linalg._ def main (args:Array[String]){ val MaxEvents = 100 val NumFeatures = 100 v...
2018-08-07 16:07:07 514
原创 spark streaming 应用
build.sdt name := "scala-spark-streaming-app" version :="1.0"scalaVersion :="2.10.4"libarayDependencies += "org.apache.spark" %% "spark-mllib" %"1.1.0"libraryDependencies +="org.a
2018-08-07 15:05:21 112
原创 amazon sagemaker 练习
亚马逊的sagemaker 提供了模型训练到部署的全流程支持,下面这个例子是其参考手册的入门例子,记录一下整体流程,具体代码操作可以查看其手册。1 创建Amazon账号,建立IAM 用户(identify and access management)2 建立 S3 bucket (Amazon simple storage service ) 用于存放训练数据和调优后的模型代码/模型工件(mode...
2018-06-21 16:05:26 4436 1
原创 windows 离线 安装tensorflow
办公室台式机不能联网,因此安装tensorflow比较费时,现把步骤总结如下:电脑之前安装了anaconda 但只包含python2.7,1创建环境py3,此时,由于离线,不能自动安装python3.5,需要后续手动安装conda create -n py3 --clone root这样在新环境py3中之前所有的包都可以用2 在py3中安装更新py3.5下载python
2018-03-26 17:06:27 374
原创 hmmlearn 快速安装
直接在https://www.lfd.uci.edu/~gohlke/pythonlibs/上下载相应版本的whl文件(此文件非常小才100K左右)然后pip install ****whl如果下载官网上的tar.gz安装报错提示未安装c++ 9.0,不明白原因,还未安装vcforpython,不确定exe文件直接安装后是否需要后续设置
2018-03-19 15:54:14 2666
原创 anaconda 第三方安装包(gensim) 离线安装
最近在按照《python机器学习经典案例》学习,在第六章中需要安装gensim。我的电脑是使用anaconda的,但悲催的是公司电脑不能联网,导致安装gensim的时候非常麻烦,不能在线安装,在线安装的好处是,如果其依赖的包之前安装的话,会自动下载安装。我只能采用离线安装的方式 下载tar.gz文件包,解压,在anaconda中python setup.py install,很多包需要手动安装,坑...
2018-03-19 13:21:39 9418
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人