- 博客(5)
- 资源 (5)
- 收藏
- 关注
原创 HMM与序列标注
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数(隐状态)的马尔可夫过程。其难点是从可观察的参数中(显状态)确定该过程的隐含参数(隐状态),然后利用这些参数来作进一步的分析。举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推特,我前天公园散步
2016-12-26 16:29:33 7388
原创 hive数据导出至本地文件,如何指定分隔符
有时候需要将hive库中的部分数据导入至本地,这样子做可视化和小规模的数据挖掘实验都是比较方便的。数据导入至本地的HQL语法如下: INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1;但是hive对字段分隔时默认使用的分隔符是^A,使用文本编辑器打开文件显示出来就是乱码,同时,后续提取字段值时需要指定这个特殊的分隔符,在p
2016-12-21 11:46:04 20168 2
原创 基于图的任务流引擎GraphScheduleEngine
GraphScheduleEngine是什么:GraphScheduleEngine是一个基于DAG图的任务流引擎,不同语言编写、运行于不同机器上的模块、程序,均可以通过订阅GraphScheduleEngine的消息来启动、运行、结束自身的任务。开发GraphScheduleEngine的初衷:在数据挖掘、推荐引擎的离线计算等任务中,会涉及诸多的子任务,每个子任务之间通常还存在着复杂的依赖关系,
2016-12-19 17:19:53 3677
原创 Java中使用CountDownLatch进行多线程同步
CountDownLatch介绍在前面的Java学习笔记中,总结了Java中进行多线程同步的几个方法:1、synchronized关键字进行同步。2、Lock锁接口及其实现类ReentrantLock、ReadWriteLock锁实现同步。3、信号量Semaphore实现同步。其中,synchronized关键字和Lock锁解决的是多个线程对同一资源的并发访问问题。信号量Semaphore解决的是
2016-12-05 14:37:00 6620
原创 TensorFlow实验环境搭建
初衷:由于系统、平台的原因,网上有各种版本的tensorflow安装教程,基于linux的、mac的、windows的,各有不同,tensorflow的官网也给出了具体的安装命令。但实际上,即使tensorflow安装成功,还是会遇到需要安装其他辅助工具的情况,同时,换一台机器又要面临整个环境重新安装的问题。由于docker制作一次镜像,可以拷贝重复使用的原因,在这里探讨一下在docker上制作一
2016-12-02 11:48:59 3381 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人