Spark做词性标注遇到的问题及解决方法

在用spark做中文分词、词性标注的时候遇到了一些问题,记录一下场景及解决方法。

2017-09-25 21:29:58

阅读数 637

评论数 0

Spark Partition

partition是spark rdd计算的最小单元。为什么是最小单元?先从分布式说起,分布式计算的特点就是批处理,将大量的数据分成若干批次,使得利用廉价机器搭建的集群也可以完成海量数据的计算。大量的数据分散在集群中的若干节点上,每个节点上的那部分数据,在执行计算的时候,又可以切分成若干份,每一份...

2017-09-23 18:21:27

阅读数 2846

评论数 0

Spark on YARN 笔记

一直对hadoop这套局限在会用就好,没有对hadoop生态有个系统性的深入了解,也就导致在用的时候出问题很难找到关键的原因,都得google so 各种找相关信息。所以现在觉得,还是得花一些时间,至少把与平时用到的相关部分的原理、概念理解清楚。只要是用hadoop生态的组件,很多都会用YARN来...

2017-09-10 23:30:18

阅读数 711

评论数 0

MySQL导入Hive - DataX方案

MySQL导入Hive可以用sqoop或者dump到本地再load into的方式导入Hive。还有一种方式就是用阿里开源的DataX,试了一下还挺方便的。用sqoop经常会出现数据倾斜的情况,DataX暂时还没有遇见。要使用DataX只需要填写一个json格式的配置文件即可,整个安装和使用的方法...

2017-08-16 22:03:51

阅读数 7180

评论数 5

CoreNLP Python接口处理中文

CoreNLP 项目是Stanford开发的一套开源的NLP系统。包括tokenize, pos , parse 等功能,与SpaCy类似。SpaCy号称是目前最快的NLP系统, 并且提供现成的python接口,但不足之处就是目前还不支持中文处理, CoreNLP则包含了中文模型,可以直接用于处理...

2017-08-02 19:03:24

阅读数 9167

评论数 1

TensorFlow saved_model 模块

saved_model模块主要用于TensorFlow Serving。TF Serving是一个将训练好的模型部署至生产环境的系统,主要的优点在于可以保持Server端与API不变的情况下,部署新的算法或进行试验,同时还有很高的性能。保持Server端与API不变有什么好处呢?有很多好处,我只从...

2017-07-17 00:09:02

阅读数 21426

评论数 22

带Attention机制的Seq2Seq框架梳理

根据论文Neural Machine Translation By Jointly Learning to Align and Translate把带Attention机制的Seq2Seq框架Encoder与Decoder部分的流程图画了一下,公式梳理了一遍。

2017-07-08 22:42:26

阅读数 9758

评论数 2

Tensorflow新版Seq2Seq接口使用

Tensorflow 1.0.0 版本以后,开发了新的seq2seq接口,弃用了原来的接口。旧的seq2seq接口也就是tf.contrib.legacy_seq2seq下的那部分,新的接口在tf.contrib.seq2seq下。新seq2seq接口与旧的相比最主要的区别是它是动态展开的,而旧的...

2017-07-02 23:50:08

阅读数 32724

评论数 17

用于文本相似的Siamese Network

Siamese Network简介Siamese Network 是一种神经网络的框架,而不是具体的某种网络,就像seq2seq一样,具体实现上可以使用RNN也可以使用CNN。简单的说,Siamese Network用于评估两个输入样本的相似度。网络的框架如下图所示Siamese Network有...

2017-06-25 23:00:45

阅读数 9128

评论数 10

用于文本分类的RNN-Attention网络

这篇博客主要介绍Attention机制在文本分类任务上的作用,原理以及附带的代码实现。

2017-06-17 15:51:15

阅读数 21608

评论数 4

使用TensorFlow动手实现一个Char-RNN

Char-RNN非常有意思,想要深入了解最好的方式就是用自己最喜欢的工具动手实现一遍。

2017-05-19 20:56:50

阅读数 8605

评论数 5

TensorFlow 模型保存/载入的两种方法

TensorFlow 模型保存/载入方法记录

2017-05-08 16:02:05

阅读数 36677

评论数 11

强化学习入门学习记录

RL属于机器学习中比较有意思的一个领域,监督学习、无监督学习都是一堆静止的数据去训练模型,而强化学习是让模型与环境的交互中进行学习,让人感觉更像一种有智慧的生物(然而并不是)。

2017-05-06 16:35:07

阅读数 1306

评论数 1

FastText 文本分类使用心得

fasttext文本分类

2016-11-20 12:01:07

阅读数 21138

评论数 25

7天从入门到运用机器学习 (一) -- 数据探索与预处理

前言这个系列主要是面向做工程的同事做一些分享,旨在让大家都可以应用机器学习来解决问题,而不仅仅是看看理论浅尝辄止。机器学习是一门包含多方面知识的学科,想要几天掌握是不太可能的。但是如果把它当做一个工具来使用,不追本溯源,其实不需要花费太多的时间。这一系列分享的目的在于,希望全部完成以后,任何一个会...

2016-10-14 16:46:23

阅读数 3482

评论数 0

MongoDB往Hive导数据

注:这里用Hive泛指数据仓库,数据还是存储在HDFS里。想要从MongoDB往Hive导数据主要有两种方式。

2016-09-11 12:31:53

阅读数 5878

评论数 1

Hive连接MongoDB

Hive连接MongoDBHive上创建的表可以是HDFS-based,也可以是MongoDB-based。MongoDB-based的Hive表,其实就是一个将MongoDB collection的数据与Hive表的字段相关联的映射。

2016-05-21 17:11:01

阅读数 5777

评论数 1

word2vec (四) 动手训练一个词向量空间

word2vec 使用实例

2016-05-14 16:40:12

阅读数 12150

评论数 3

word2vec (二) CBOW

未完待续…

2016-05-14 10:50:54

阅读数 1068

评论数 0

word2vec (一) 简介与训练过程概要

word2vec、词向量空间、概率语言模型、word2vec训练过程简介

2016-05-14 10:45:07

阅读数 10528

评论数 0

提示
确定要删除当前文章?
取消 删除