weixin_40988315-CSDN博客

原创 sagemaker common data formats

在aws上导入数据对模型进行训练和推理需要进行数据的序列化、反序列化，模型的序列化、反序列化（数据流和结构化数据之间的转换）其中数据的反序列化和模型的序列化直接有程序完成，模型的反序列化是可选操作。主要需要用户设置的是数据的序列化。training data formats在训练时，使用protobuf recordIO结构能够优化训练过程，这是因为讲结构化的数据转换成了流式数据，能够使...

2018-09-27 10:59:54 363

原创 Protocol Buffer简介

protocal buffer 是google开发的处理结构化数据的工具（拥有多种属性的数据）如name: sanwangid:12345email: sanwang@126.com 当需要将这些结构化的数据持久化或进行网络传输时，需要将其序列化，所谓序列化指将结构化数据变为数据流的格式，简单来说就是转变为字符串。如何讲结构化的数据序列化，并将序列化的数据还原出原来的结构化...

2018-09-27 09:04:48 363

MLlib是spark中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的，设计理念非常简单:把数据以RDD形式表示，然后在分布式数据集上调用各种算法。可以将其看作RDD上一系列可供调用的函数的集合。MLlib中只包含能够在集群上运行良好的并行算法。MLlib的算法适用于大规模数据集，如果要在许多小规模数据集上训练各机器学习模型，最好还是在各节点上使用单节点的机器学习算法库实现，比如sp...

2018-08-31 13:46:49 204

原创 spark 基础七 spark streaming

spark streaming 使用离散化流DStream作为抽象表示。DStream是随时间退役而受到的数据的序列，在内部，每个时间区间收到的数据都作为RDD存在，DStream时由这些RDD所组成的序列。DStream支持两种操作：转化操作生成新的DStream，输出操作将数据写入外部系统。除了提供RDD类似的操作外，还增加了与时间相关的新操作。与批处理程序不同，streaming需要进行...

2018-08-31 09:40:35 197

原创 spark基础六 spark SQL

可以从各种结构化数据源中读取数据 JSON Hive等不仅支持在spark内使用SQL语句进行数据查询，也支持从类似商业软件中通过标准数据库连接器连接spark SQL进行查询在spark内部使用spark SQL时，支持SQL与常规的python java scala代码整合spark SQL 提供一种特殊的RDD， schemaRDD，存放Row对象，每个Row对象代表一行记录，在...

2018-08-30 11:00:12 218

原创 spark 基础五集群模式

1spark 运行时的架构：spark集群采用主从结构，中央协调节点称为驱动器节点 driver node，与之对应工作节点称为执行器节点 executor。驱动节点和大量的执行器节点进行通信。spark通过集群管理器cluster manager的外部服务在集群中的及其上启动分配调度 spark驱动器是执行程序中main方法，执行用户编写的用来创建sparkcontext，创建RDD...

2018-08-29 17:21:53 214

原创 spark基础四累加器广播变量 pipe

1累加器使用map等函数时，可以使用驱动器程序中定义的变量，但集群中运行的每个任务都会得到这些变量的一个新的副本，更新这些副本的值也不会影响驱动器中的对应变量。spark中有两个共享变量，累加器和广播变量，可以实现集群中的共享。累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法blacnklines= sc.accumulator(0)final Accumulator&lt...

2018-08-29 15:12:46 202

原创 spark 基础二数据读取与保存

spark 本身基于Hadoop生态圈构建，可以通过hadoop mapreduce框架的InputFormat 和OutputFormat 接口访问数据，大部分的文件格式与存储系统如S3、HDFS、Cassandra、HBase等都支持这种接口spark会根据文件扩展名选择对应处理方式 1读取/保存文本文件textFIle()读取一个文本文件，生成RDD，输入的每一行成为RDD中...

2018-08-29 11:03:19 545

原创 aws EMR 调试

通过CLI工具创建、交互shell调用aws cli 首先在终端中输入aws configure 按照要求输入credentials.csv中的ID，key创建EMR clusteraws emr create-cluster --name "Spark cluster" --release-label emr-5.16.0 --applications Name=Spark \...

2018-08-28 14:54:08 1075

原创 spark 基础（一）RDD

RDD resilient distributed dataset 弹性分布式数据集在spark 中对数据的所有操作均可归类为:创建RDD，转化已有RDD，调用RDD操作求值。每个RDD可以被分为多个分区，这些分区运行在集群的不同节点上，RDD可以包含python，scala，java等任意类型的对象。创建RDD方法;1 读取外部数据集 SparkContext.textFile...

2018-08-27 17:12:16 280

原创皮尔逊相关系数mapreduce实现

mapreduce框架/key 由mapreduce生成，可忽略value 矩阵中的一行map(key,value){ double [] arr =line.split(","); int size = arr.length; for(int i =0; i<size-1;i++){ for (int j =i+1; j<size;j++){ ...

2018-08-27 13:41:02 417

原创 cmake 更新跳坑

在linux下更新cmake容易出错，尝试了好几个解决方案后最终成功的方法：卸载cmake cmake-data下载源代码，解压，确认解压后的文件夹内有bootstrap文件cd到此文件夹，依次运行以下指令./bootstrap --prefix=/usr/local（会在/usr/local/bin/中生成三个文件cmake，ctest，cpack）makesudo ma...

2018-08-26 14:12:56 895

原创 Hive简介

Hive是基于Hadoop文件系统上的数据仓库架构，为数据仓库的管理提供了很多功能：数据的抽取转换加载工具/存储管理和大型数据集的查询和分析能力，还定义了类SQL语言 Hive QL 允许用户进行和SQL相似的操作，同样允许开放人员方便的使用mapper和reducer操作。但Hive 延迟较高，不适合小数据集，适合稳定的大规模数据集的批量任务。...

2018-08-23 11:13:27 92

原创亚马逊EMR 熟悉

Amazon EMR 是一个托管集群平台，可简化在AWS上运行大数据框架（Hadoop 和spark）以处理和分析海量数据的操作。借助相关的开源项目（Hive和Pig），处理数据和商业只能工作负载。还可以使用EMR转换大量数据和将大量数据移入和移出其他AWS数据存储和数据库如S3和DynamoDB。集群(cluster) ，一组EC2实例的集合，每一个节点都有不同的角色即节点类型主节点;...

2018-08-23 11:07:16 937

原创 amazon 云平台入门

一基本概念 1 Amazon Elastic Compute Cloud (Amazon EC2) 在 Amazon Web Services (AWS) 云中提供可扩展的计算容量。使用 Amazon EC2 可避免前期的硬件投入，因此您能够快速开发和部署应用程序。通过使用 Amazon EC2，您可以根据自身需要启动任意数量的虚拟服务器、配置安全和网络以及管理存储。A...

2018-08-22 20:56:37 1087

原创 spark 朴素贝叶斯

P(c/x)=P(X/C)P(C)/P(X)argmax(P(C/X))=argmax(P(X/C)P(C))=argmax(IIP(Xi/c)P(C))Mapreduce 解决方案第一阶段用训练数据建立分类器//key 忽略 value 一个样本，包含了各属性值以及分类map(key,value){ String [] tokens =value.split(",...

2018-08-17 13:49:21 527

原创 Spark KNN实现

R：查询数据集 S:训练数据集需要对R中每一个元素计算与S中每一个元素的距离可以首先计算得到两个数据集的笛卡尔积用map找到distancegroupBykey同一个r的distance 找出其中的KNN public class KNN{ public static void main(String[] args) throws Exception{ ...

2018-08-16 17:04:13 2044

原创 hadoop/spark k均值聚类

// k 期望的簇数//delta 可接受的收敛误差//data 输入数据kmeans(k,delta,data){//初始化簇质心initial_centroids=pick(k,data);//利用这个方法向映射器广播中心writeToHDFS(initial_centroids);//必要时迭代current_centroids=initial_centr...

2018-08-16 14:26:02 257

原创 Hadoop/spark 马尔科夫邮件营销

一阶马尔科夫：系统在t+1时刻的状态仅由t时刻状态决定时序交易 Mapreduce 输入 customerID， transactionID, pusechasedate amount输出 customerID, (Date1, amount1)(Date2,amount2)(Date3,amount3)...(DateN,AmountN) 用其表示马尔科夫链，最终求转移矩阵...

2018-08-16 11:12:10 409

原创基于用户评分的电影推荐 Hadoop/spark实现

Mapreduce框架输入 user1 movie1 ratingmapreduce 1阶段map(<user>,<movie>,<rating>){ k2=movie; v2=Tuple2(user, rating); emit(ke,v2) }//key =movie// valu...

2018-08-15 09:09:40 1706

原创 Mapreduce 推荐引擎

购买过该商品的顾客还购买过哪些商品给一个商品，推荐购买过这个商品的用户经常购买的五件产品输出是键值对，键是商品，值是5个商品的列表map1//key=userid value=useriD购买过的产品map (userID,item){ emit(userID,item);}reduce1reduce(userID,item[i1,i2,...in])...

2018-08-15 08:17:33 368

原创 hadoop/saprk 共同好友

Mapreduce算法输入key value key是用户 value是用户的好友列表，构造新的key 是用户和其中一个好友，value是用户的其余的好友列表，在归约器中求相同key 的value的交集map(key, value){ reducevalue=(<friend1><friend2>...<friendn>); ...

2018-08-14 14:38:35 144

原创 Hadoop/spark 购物篮分析

Hadoop Mapreduce 形式化映射器//key 交易ID 忽略//value 交易商品（i1,i2,...in）map(key,value){ (s1,s2,...sn)=sort(i1,i2,...in); List<Tuple2<si,sj>> listofpairs=Combinations...

2018-08-14 11:19:20 698

原创 Hadoop/Spark 左外连接

左外连接SELECT filed_1,filed_2..FROM T1 LEFT OUTER JOIN T2ON T1.k=T2.kgroup by filed_1 MapReduce 两个阶段第一个阶段找出所有售出的商品及关联的地址第二个阶段统计售出的商品的地址个数public class LeftOuterJoin{ //读取输入参数 ...

2018-08-13 17:41:32 657

原创 hadoop/saprk Top 10列表

Java Top Nstatic SortedMap<Integer,T> topN(List<Tuple2<T,Integer>>,L,int N){ if ((L==null)||(L.isEmpty())){ return null;} SortedMap<Int...

2018-08-13 14:58:04 221

原创 hadoop/spark 二次排序

map传入到reduce时，是按键排序的，但键内的值序列是无序的，如果要想构造有序的值序列，需要二次排序，构造组合中间键，让MapReduce框架执行排序 //中间键的排序顺序DateTemperaturePair类 public class DateTemperaturePair implements Writable, WritableComparable...

2018-08-13 08:35:56 223

原创 hadoop初探

MapReduce是一个软件框架没采用并行、分布式处理GB、tb的数据，同时也是一个在商用服务器集群上完成大规模数据处理的执行框架，由google提出，目标是实现可伸缩性使用MapReduce时，重点是编写两个函数：map（）映射过滤和聚集数据（key1，value1）->(key2，value2)主节点得到输入后，将输入划分为较小的数据块，将这些数据块分不到工作节点上...

2018-08-09 16:07:44 144

原创 spark 初探

scalaobject ScalaApp{ def main(args: Array[String]) { val sc = new SparkContext("local[2]","first spark app") val data = sc.textFile("data/UserPurchaseHistory.csv")...

2018-08-07 16:49:49 96

原创 spark streaming 在线学习

// 创建流数据生成器// 随机线性回归数据的生成器 object StreamingModelProducer { import breeze.linalg._ def main (args:Array[String]){ val MaxEvents = 100 val NumFeatures = 100 v...

2018-08-07 16:07:07 514

原创 spark streaming 应用

build.sdt name := "scala-spark-streaming-app" version :="1.0"scalaVersion :="2.10.4"libarayDependencies += "org.apache.spark" %% "spark-mllib" %"1.1.0"libraryDependencies +="org.a

2018-08-07 15:05:21 112

原创 amazon sagemaker 练习

亚马逊的sagemaker 提供了模型训练到部署的全流程支持，下面这个例子是其参考手册的入门例子，记录一下整体流程，具体代码操作可以查看其手册。1 创建Amazon账号，建立IAM 用户（identify and access management）2 建立 S3 bucket （Amazon simple storage service ）用于存放训练数据和调优后的模型代码/模型工件（mode...

2018-06-21 16:05:26 4436 1

原创 windows 离线安装tensorflow

办公室台式机不能联网，因此安装tensorflow比较费时，现把步骤总结如下：电脑之前安装了anaconda 但只包含python2.7，1创建环境py3，此时，由于离线，不能自动安装python3.5，需要后续手动安装conda create -n py3 --clone root这样在新环境py3中之前所有的包都可以用2 在py3中安装更新py3.5下载python

2018-03-26 17:06:27 374

原创 hmmlearn 快速安装

直接在https://www.lfd.uci.edu/~gohlke/pythonlibs/上下载相应版本的whl文件（此文件非常小才100K左右）然后pip install ****whl如果下载官网上的tar.gz安装报错提示未安装c++ 9.0，不明白原因，还未安装vcforpython，不确定exe文件直接安装后是否需要后续设置

2018-03-19 15:54:14 2666

原创 anaconda 第三方安装包（gensim）离线安装

最近在按照《python机器学习经典案例》学习，在第六章中需要安装gensim。我的电脑是使用anaconda的，但悲催的是公司电脑不能联网，导致安装gensim的时候非常麻烦，不能在线安装，在线安装的好处是，如果其依赖的包之前安装的话，会自动下载安装。我只能采用离线安装的方式下载tar.gz文件包，解压，在anaconda中python setup.py install，很多包需要手动安装，坑...

2018-03-19 13:21:39 9418

weixin_40988315的博客