- 博客(26)
- 收藏
- 关注
原创 Spark Partition
partition是spark rdd计算的最小单元。为什么是最小单元?先从分布式说起,分布式计算的特点就是批处理,将大量的数据分成若干批次,使得利用廉价机器搭建的集群也可以完成海量数据的计算。大量的数据分散在集群中的若干节点上,每个节点上的那部分数据,在执行计算的时候,又可以切分成若干份,每一份就是一个批次,也就是一个partition。spark计算的性能与partition的数量有很大的关系。
2017-09-23 18:21:27 4361 2
原创 Spark on YARN 笔记
一直对hadoop这套局限在会用就好,没有对hadoop生态有个系统性的深入了解,也就导致在用的时候出问题很难找到关键的原因,都得google so 各种找相关信息。所以现在觉得,还是得花一些时间,至少把与平时用到的相关部分的原理、概念理解清楚。只要是用hadoop生态的组件,很多都会用YARN来管理资源与任务分配。而资源分配的合理与否,直接关系到任务的执行效率,甚至决定成功或失败。spark又是现
2017-09-10 23:30:18 1441
原创 MySQL导入Hive - DataX方案
MySQL导入Hive可以用sqoop或者dump到本地再load into的方式导入Hive。还有一种方式就是用阿里开源的DataX,试了一下还挺方便的。用sqoop经常会出现数据倾斜的情况,DataX暂时还没有遇见。要使用DataX只需要填写一个json格式的配置文件即可,整个安装和使用的方法参照官方给出的Quick Start即可。配置文件中,主要填写mysqlreader与hdfswrite
2017-08-16 22:03:51 11196 5
原创 CoreNLP Python接口处理中文
CoreNLP 项目是Stanford开发的一套开源的NLP系统。包括tokenize, pos , parse 等功能,与SpaCy类似。SpaCy号称是目前最快的NLP系统, 并且提供现成的python接口,但不足之处就是目前还不支持中文处理, CoreNLP则包含了中文模型,可以直接用于处理中文, 但CoreNLP使用Java开发,python调用稍微麻烦一点。
2017-08-02 19:03:24 14004 2
原创 TensorFlow saved_model 模块
saved_model模块主要用于TensorFlow Serving。TF Serving是一个将训练好的模型部署至生产环境的系统,主要的优点在于可以保持Server端与API不变的情况下,部署新的算法或进行试验,同时还有很高的性能。保持Server端与API不变有什么好处呢?有很多好处,我只从我体会的一个方面举例子说明一下,比如我们需要部署一个文本分类模型
2017-07-17 00:09:02 44310 30
原创 带Attention机制的Seq2Seq框架梳理
根据论文Neural Machine Translation By Jointly Learning to Align and Translate把带Attention机制的Seq2Seq框架Encoder与Decoder部分的流程图画了一下,公式梳理了一遍。
2017-07-08 22:42:26 12721 2
原创 Tensorflow新版Seq2Seq接口使用
Tensorflow 1.0.0 版本以后,开发了新的seq2seq接口,弃用了原来的接口。旧的seq2seq接口也就是tf.contrib.legacy_seq2seq下的那部分,新的接口在tf.contrib.seq2seq下。新seq2seq接口与旧的相比最主要的区别是它是动态展开的,而旧的是静态展开的。
2017-07-02 23:50:08 44245 17
原创 用于文本相似的Siamese Network
Siamese Network简介Siamese Network 是一种神经网络的框架,而不是具体的某种网络,就像seq2seq一样,具体实现上可以使用RNN也可以使用CNN。简单的说,Siamese Network用于评估两个输入样本的相似度。网络的框架如下图所示Siamese Network有两个结构相同,且共享权值的子网络。分别接收两个输入X1X_1与X2X_2,将其转换为向量Gw(X1)G_
2017-06-25 23:00:45 15407 12
原创 使用TensorFlow动手实现一个Char-RNN
Char-RNN非常有意思,想要深入了解最好的方式就是用自己最喜欢的工具动手实现一遍。
2017-05-19 20:56:50 9600 5
原创 强化学习入门学习记录
RL属于机器学习中比较有意思的一个领域,监督学习、无监督学习都是一堆静止的数据去训练模型,而强化学习是让模型与环境的交互中进行学习,让人感觉更像一种有智慧的生物(然而并不是)。
2017-05-06 16:35:07 2005 1
原创 7天从入门到运用机器学习 (一) -- 数据探索与预处理
前言这个系列主要是面向做工程的同事做一些分享,旨在让大家都可以应用机器学习来解决问题,而不仅仅是看看理论浅尝辄止。机器学习是一门包含多方面知识的学科,想要几天掌握是不太可能的。但是如果把它当做一个工具来使用,不追本溯源,其实不需要花费太多的时间。这一系列分享的目的在于,希望全部完成以后,任何一个会写代码但对机器学习还不了解的同学,都可以上手运用机器学习的工具来完成一些预测任务,如分类或回归。机器学习
2016-10-14 16:46:23 4376
原创 MongoDB往Hive导数据
注:这里用Hive泛指数据仓库,数据还是存储在HDFS里。想要从MongoDB往Hive导数据主要有两种方式。
2016-09-11 12:31:53 8899 2
原创 Hive连接MongoDB
Hive连接MongoDBHive上创建的表可以是HDFS-based,也可以是MongoDB-based。MongoDB-based的Hive表,其实就是一个将MongoDB collection的数据与Hive表的字段相关联的映射。
2016-05-21 17:11:01 9014 1
原创 MongoDB学习小记
MongoDB 学习笔记因为要处理一些数据,这两天学习了一下MongoDB,在此记录下一些对MongoDB粗浅的认识。直观认识MongoDB是NoSQL(Not Only SQL)数据库之一,之前用过Redis也属于NoSQL,不过两者的应用场景很不相同。Redis是内存型k-v数据库,作为缓存可以实现高效的存取,但是做不了复杂的查询与分析。MongoDB是持久化存储的,同时支持aggregate
2016-05-01 20:53:07 902
原创 对GBDT的一点理解
GBDT由一系列的回归树组成,如下图所示(树的深度未必都要一样,下图仅为示意图)。GBDT原理针对每一个类别训练一系列的回归树,再累加每个类别回归树的预测值得到针对每个类别的最终的预测值。单独拿一个类别来说,训练的过程中假设需要预测的值为f(xi)f(x_i),实际的值为yiy_i,有Loss Function L(yi,f(xi))L(y_i,f(x_i)),f(xi)f(x_i)为参数。训练的过
2016-04-26 23:52:11 7197
原创 plsa(Probabilistic Latent Semantic Analysis) 概率隐语义分析
plsa,也就是概率隐语义分析,是主题模型的一种。本文简介主题模型的概念,讲解plsa如何估计主题模型中的参数,以及算法的推导过程及代码实现
2016-03-13 17:07:45 5039
原创 从前向分步算法推导出AdaBoost
前向分步算法到AdaBoost前向分步算法与AdaBoost有什么关系呢?除了都属于Boosting的模型,其实AdaBoost是当前向分步算法损失函数为指数损失时的特例。这篇就写一下推导的过程。
2016-03-13 15:02:36 4729 7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人