自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Forever-守望

大数据、数据挖掘、算法

  • 博客(5)
  • 资源 (5)
  • 收藏
  • 关注

原创 HMM与序列标注

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数(隐状态)的马尔可夫过程。其难点是从可观察的参数中(显状态)确定该过程的隐含参数(隐状态),然后利用这些参数来作进一步的分析。举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推特,我前天公园散步

2016-12-26 16:29:33 7388

原创 hive数据导出至本地文件,如何指定分隔符

有时候需要将hive库中的部分数据导入至本地,这样子做可视化和小规模的数据挖掘实验都是比较方便的。数据导入至本地的HQL语法如下: INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1;但是hive对字段分隔时默认使用的分隔符是^A,使用文本编辑器打开文件显示出来就是乱码,同时,后续提取字段值时需要指定这个特殊的分隔符,在p

2016-12-21 11:46:04 20168 2

原创 基于图的任务流引擎GraphScheduleEngine

GraphScheduleEngine是什么:GraphScheduleEngine是一个基于DAG图的任务流引擎,不同语言编写、运行于不同机器上的模块、程序,均可以通过订阅GraphScheduleEngine的消息来启动、运行、结束自身的任务。开发GraphScheduleEngine的初衷:在数据挖掘、推荐引擎的离线计算等任务中,会涉及诸多的子任务,每个子任务之间通常还存在着复杂的依赖关系,

2016-12-19 17:19:53 3677

原创 Java中使用CountDownLatch进行多线程同步

CountDownLatch介绍在前面的Java学习笔记中,总结了Java中进行多线程同步的几个方法:1、synchronized关键字进行同步。2、Lock锁接口及其实现类ReentrantLock、ReadWriteLock锁实现同步。3、信号量Semaphore实现同步。其中,synchronized关键字和Lock锁解决的是多个线程对同一资源的并发访问问题。信号量Semaphore解决的是

2016-12-05 14:37:00 6620

原创 TensorFlow实验环境搭建

初衷:由于系统、平台的原因,网上有各种版本的tensorflow安装教程,基于linux的、mac的、windows的,各有不同,tensorflow的官网也给出了具体的安装命令。但实际上,即使tensorflow安装成功,还是会遇到需要安装其他辅助工具的情况,同时,换一台机器又要面临整个环境重新安装的问题。由于docker制作一次镜像,可以拷贝重复使用的原因,在这里探讨一下在docker上制作一

2016-12-02 11:48:59 3381 1

朴素贝叶斯分类法

使用朴素贝叶斯方法实现的中文文本分类算法

2015-01-10

R软件语言入门教程

关于R语言比较基础全面的教程,R的语法、数据结构、常用函数都有介绍

2014-07-23

大数加法程序

大数加法程序 大数加法程序 大数加法程序 C,C++

2012-07-01

c++桌面时钟程序

利用c++和windows api开发了一个小型的桌面时钟重新换,欢迎下载

2012-06-26

定时关机程序

dev c++可以编译运行,代码优化的还不是很好哈

2012-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除