thriving_fcl-CSDN博客

原创 Spark做词性标注遇到的问题及解决方法

在用spark做中文分词、词性标注的时候遇到了一些问题，记录一下场景及解决方法。

2017-09-25 21:29:58 1448 1

partition是spark rdd计算的最小单元。为什么是最小单元？先从分布式说起，分布式计算的特点就是批处理，将大量的数据分成若干批次，使得利用廉价机器搭建的集群也可以完成海量数据的计算。大量的数据分散在集群中的若干节点上，每个节点上的那部分数据，在执行计算的时候，又可以切分成若干份，每一份就是一个批次，也就是一个partition。spark计算的性能与partition的数量有很大的关系。

2017-09-23 18:21:27 4411 2

原创 Spark on YARN 笔记

一直对hadoop这套局限在会用就好，没有对hadoop生态有个系统性的深入了解，也就导致在用的时候出问题很难找到关键的原因，都得google so 各种找相关信息。所以现在觉得，还是得花一些时间，至少把与平时用到的相关部分的原理、概念理解清楚。只要是用hadoop生态的组件，很多都会用YARN来管理资源与任务分配。而资源分配的合理与否，直接关系到任务的执行效率，甚至决定成功或失败。spark又是现

2017-09-10 23:30:18 1503

原创 MySQL导入Hive - DataX方案

MySQL导入Hive可以用sqoop或者dump到本地再load into的方式导入Hive。还有一种方式就是用阿里开源的DataX，试了一下还挺方便的。用sqoop经常会出现数据倾斜的情况，DataX暂时还没有遇见。要使用DataX只需要填写一个json格式的配置文件即可，整个安装和使用的方法参照官方给出的Quick Start即可。配置文件中，主要填写mysqlreader与hdfswrite

2017-08-16 22:03:51 11263 4

原创 CoreNLP Python接口处理中文

CoreNLP 项目是Stanford开发的一套开源的NLP系统。包括tokenize, pos , parse 等功能，与SpaCy类似。SpaCy号称是目前最快的NLP系统，并且提供现成的python接口，但不足之处就是目前还不支持中文处理， CoreNLP则包含了中文模型，可以直接用于处理中文，但CoreNLP使用Java开发，python调用稍微麻烦一点。

2017-08-02 19:03:24 14135 1

原创 TensorFlow saved_model 模块

saved_model模块主要用于TensorFlow Serving。TF Serving是一个将训练好的模型部署至生产环境的系统，主要的优点在于可以保持Server端与API不变的情况下，部署新的算法或进行试验，同时还有很高的性能。保持Server端与API不变有什么好处呢？有很多好处，我只从我体会的一个方面举例子说明一下，比如我们需要部署一个文本分类模型

2017-07-17 00:09:02 44576 23

原创带Attention机制的Seq2Seq框架梳理

根据论文Neural Machine Translation By Jointly Learning to Align and Translate把带Attention机制的Seq2Seq框架Encoder与Decoder部分的流程图画了一下，公式梳理了一遍。

2017-07-08 22:42:26 12944 2

原创 Tensorflow新版Seq2Seq接口使用

Tensorflow 1.0.0 版本以后，开发了新的seq2seq接口，弃用了原来的接口。旧的seq2seq接口也就是tf.contrib.legacy_seq2seq下的那部分，新的接口在tf.contrib.seq2seq下。新seq2seq接口与旧的相比最主要的区别是它是动态展开的，而旧的是静态展开的。

2017-07-02 23:50:08 44574 2

原创用于文本相似的Siamese Network

Siamese Network简介Siamese Network 是一种神经网络的框架，而不是具体的某种网络，就像seq2seq一样，具体实现上可以使用RNN也可以使用CNN。简单的说，Siamese Network用于评估两个输入样本的相似度。网络的框架如下图所示Siamese Network有两个结构相同，且共享权值的子网络。分别接收两个输入X1X_1与X2X_2，将其转换为向量Gw(X1)G_

2017-06-25 23:00:45 15545 12

原创用于文本分类的RNN-Attention网络

这篇博客主要介绍Attention机制在文本分类任务上的作用，原理以及附带的代码实现。

2017-06-17 15:51:15 30847 1

原创使用TensorFlow动手实现一个Char-RNN

Char-RNN非常有意思，想要深入了解最好的方式就是用自己最喜欢的工具动手实现一遍。

2017-05-19 20:56:50 9675 4

原创 TensorFlow 模型保存/载入的两种方法

TensorFlow 模型保存/载入方法记录

2017-05-08 16:02:05 51999 13

原创强化学习入门学习记录

RL属于机器学习中比较有意思的一个领域，监督学习、无监督学习都是一堆静止的数据去训练模型，而强化学习是让模型与环境的交互中进行学习，让人感觉更像一种有智慧的生物（然而并不是）。

2017-05-06 16:35:07 2069 1

原创 FastText 文本分类使用心得

fasttext文本分类

2016-11-20 12:01:07 24635 5

原创 7天从入门到运用机器学习 (一) -- 数据探索与预处理

前言这个系列主要是面向做工程的同事做一些分享，旨在让大家都可以应用机器学习来解决问题，而不仅仅是看看理论浅尝辄止。机器学习是一门包含多方面知识的学科，想要几天掌握是不太可能的。但是如果把它当做一个工具来使用，不追本溯源，其实不需要花费太多的时间。这一系列分享的目的在于，希望全部完成以后，任何一个会写代码但对机器学习还不了解的同学，都可以上手运用机器学习的工具来完成一些预测任务，如分类或回归。机器学习

2016-10-14 16:46:23 4445

原创 MongoDB往Hive导数据

注：这里用Hive泛指数据仓库，数据还是存储在HDFS里。想要从MongoDB往Hive导数据主要有两种方式。

2016-09-11 12:31:53 9004 2

原创 Hive连接MongoDB

Hive连接MongoDBHive上创建的表可以是HDFS-based，也可以是MongoDB-based。MongoDB-based的Hive表，其实就是一个将MongoDB collection的数据与Hive表的字段相关联的映射。

2016-05-21 17:11:01 9106 1

原创 word2vec (四) 动手训练一个词向量空间

word2vec 使用实例

2016-05-14 16:40:12 14287

原创 word2vec (二) CBOW

未完待续…

2016-05-14 10:50:54 1307

原创 word2vec (一) 简介与训练过程概要

word2vec、词向量空间、概率语言模型、word2vec训练过程简介

2016-05-14 10:45:07 15219

原创 MongoDB学习小记

MongoDB 学习笔记因为要处理一些数据，这两天学习了一下MongoDB，在此记录下一些对MongoDB粗浅的认识。直观认识MongoDB是NoSQL(Not Only SQL)数据库之一，之前用过Redis也属于NoSQL，不过两者的应用场景很不相同。Redis是内存型k-v数据库，作为缓存可以实现高效的存取，但是做不了复杂的查询与分析。MongoDB是持久化存储的，同时支持aggregate

2016-05-01 20:53:07 944

原创对GBDT的一点理解

GBDT由一系列的回归树组成，如下图所示（树的深度未必都要一样，下图仅为示意图）。GBDT原理针对每一个类别训练一系列的回归树，再累加每个类别回归树的预测值得到针对每个类别的最终的预测值。单独拿一个类别来说，训练的过程中假设需要预测的值为f(xi)f(x_i)，实际的值为yiy_i，有Loss Function L(yi,f(xi))L(y_i,f(x_i))，f(xi)f(x_i)为参数。训练的过

2016-04-26 23:52:11 7288