隐马尔可夫模型(HMM)

       隐马尔可夫模型(Hidden Markov Model,HMM),在语言识别、自然语言处理以及生物信息等领域体现了很大的价值。        考虑下面交通灯的例子,一个序列可能是红-红/橙-绿-橙-红。这个序列可以画成一个状态机,不同的状态按照这个状态机互相交替,每一个状态都只依赖...

2019-02-20 16:09:36

阅读数 9

评论数 0

词性标注器

        声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。         词性标注在自然语言处理中也是很重要...

2019-02-20 11:18:44

阅读数 14

评论数 0

Slipstream中流与流、流与表之间的join

1、流之间的join         Slipstream支持Window Stream之间的join操作。Window Stream在join的时候必须保证Slide的值一致,Length的值可以不同。         这里以系统时间切分滑动窗口为例进行说明。 基于Kafka topic ...

2019-02-19 14:56:03

阅读数 8

评论数 0

Slipstream中的无限滑动窗口(Infinite Window)

       滑动窗口中有一个特例是无限滑动窗口——它的窗口长度为无限长(INFINITE)。它的意思是,窗口每滑动一个间隔会触发一次计算,但是每次触发计算的窗口都会包含所有之前的窗口覆盖的区间。例如:对于窗口长度为 INFINITE,滑动间隔为1s的滑动窗口,第一个窗口为[0s, 1s),第二个...

2019-02-19 14:46:46

阅读数 23

评论数 0

Slipstream中的Window Stream(窗口流)

       Window Stream是Derived Stream的一种,对一个Stream进行窗口变形需要两个重要的参数:Length和Slide。Length是窗口的持续时间,Slide则是执行窗口操作的时间间隔。 1 流处理的窗口以及窗口的切分方式        流处理的窗口有两种,...

2019-02-12 14:00:10

阅读数 34

评论数 0

Slipstream中的并行流处理

       与《Kafka中的消费者组》类似,Slipstream中多个流也可以同时接收同一topic的数据进行不同的操作。值得注意的是,Slipstream中的一个Input Stream对应着Kafka中的一个Consumer Group。 1、并行流的建立        并行流的建立非...

2019-02-01 16:08:19

阅读数 48

评论数 0

Slipstream中的衍生流(Derived Stream)

        《Flume、Kafka、Slipstream对接》中介绍的流属于输入流,一般原始数据并不是最终要输出的数据,它需要经过过滤,提炼,计算。这样一个过程称之为对Stream的转化。可以采用CSAS(CREATE STREAM AS SELECT)对已有的Stream进行变形。转化得到...

2019-02-01 15:59:58

阅读数 43

评论数 0

Flume、Kafka、Slipstream对接

       在启动Slipstream之前首先去到8180监控界面,查看Slipstream的server在node2节点上,如下图所示:         Slipstream和Inceptor的server不在一个节点上,只能共同使用同一个源数据库,相关操作只能在Slipstream的引...

2019-02-01 15:53:36

阅读数 22

评论数 0

Flume抽取Oracle中的数据到Kafka

1.1 Flume的安装 1)下载Flume        从Flume官网(http://flume.apache.org/download.html)下载对应版本的Flume,这里使用的是Flume的版本是1.7。 2)解压Flume       新建flume目录,将下载的Flume...

2019-01-25 15:26:24

阅读数 88

评论数 0

Kafka中的消费者组(Consumer Group)

1. 消费者组(Consumer Group)         消费者组是Kafka实现单播和广播两种消息模型的手段。同一个topic,每个消费者组都可以拿到相同的全部数据。 1.1 消费者多于分区数 创建一个用于测试的单分区topic test 设置consumer.propertie...

2019-01-25 13:52:42

阅读数 65

评论数 0

【TDH】Kafka的使用

1. Kafka使用前的配置        集群在不开启安全的情况下,可以直接进行创建topic的操作。如果集群开启了安全,需要进行相关的安全认证的参数配置。首先去到Kafka的config目录下。 1.1 修改producer.properties文件。 修改bootstrap.serve...

2019-01-25 13:45:28

阅读数 76

评论数 0

Hive通过-f调用sql文件并进行传参

       有时候我们需要从Hive中获取需要的数据进行代码的编写,这就需要我们将查询到的语句输出到文档中,我们可以使用-e这个参数,例如: hive -e 'select * from area where code=202020' >> /ro...

2019-01-10 16:39:29

阅读数 61

评论数 0

连续时间动态主题模型(Continuous Time Dynamic Topic Models, cDTM)

       用于分析和管理大量电子文档的工具变得越来越重要。近年来,离散数据的分层贝叶斯模型,已成为一种广泛使用的文本探索和预测分析方法。 主题模型,例如潜在Dirichlet分配(LDA)和更一般的离散分量分析,假定可以使用少量的单词分布(称为主题)来解释观察到的集合LDA是潜在语义索引(LS...

2018-12-26 16:56:01

阅读数 174

评论数 0

使用Pivot、Pivot_Table、Stack和Unstack等方法在Pandas中对数据变形(重塑)

        Pandas是著名的Python数据分析包,这使它更容易读取和转换数据。在Pandas中数据变形意味着转换表或向量(即DataFrame或Series)的结构,使其进一步适合做其他分析。在本文中,小编将举例说明最常见的一些Pandas重塑功能。   一、Pivot      ...

2018-12-24 12:09:41

阅读数 93

评论数 0

动态主题模型(Dynamic Topic Models, DTM)

       在本文中,我们介绍一个动态主题模型,该模型捕获了顺序组织的文档语料库中主题的演变。 我们通过分析由Ed Edi-son于1880年创立的Jour-nal Science的100多年的OCR文章来证明其适用性。在这种模式下,文章按年份分组,每年的艺术作品都来自于去年主题演变而来的一系列...

2018-12-21 13:26:07

阅读数 310

评论数 0

Python实现K-Means聚类算法

       声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注~        根据训练样本是否包含标签信息,机器...

2018-12-20 20:47:59

阅读数 41

评论数 0

Python应用举例:读取文本数据并转为数据框

【需求】 很多个用户同时对n个题进行作答并得到结果,数据格式如下: 现在想通过一系列转换得到如下形式的数据框: 【Python实现】 操作之前,现将相关的包导入,如下: import numpy as np from pandas import DataFrame 1、首先是...

2018-12-20 13:59:34

阅读数 73

评论数 0

【TDH】Kafka、Flume、Slipstream基本操作

【Kafka操作:在${KAFKA_HOME}/bin下执行Kafka操作】 1、在星环TDH集群上操作Kafka的时候首先要进行相关的赋权操作 (1)赋予当前用户(当前用户以hive为例,可以使用kinit进行用户的切换)操作集群的权限 ./kafka-acls.sh --authori...

2018-12-18 12:40:06

阅读数 60

评论数 0

基于gibbs采样的topic over time

代码参考:https://github.com/ahmaurya/topics_over_time,如有侵权,请告知删除~          吉布斯采样(Gibbs sampling)是统计学中用于马尔科夫蒙特卡洛(MCMC)的一种算法,用于在难以直接采样时从某一多变量概率分布中近似抽取样本序...

2018-12-17 20:58:01

阅读数 44

评论数 3

PLSQL中使用SQL语句直接导入数据到表

在使用PLSQL往数据库导入数据的时候,可以直接使用SQL语句进行导入,示例如下: SELECT * FROM test1_12366 FOR UPDATE; 执行后会得到如下结果:   1、点击上图中“小锁按钮”; 2、选中所有的列,从Excel中将数据拷贝进来; 3、点击上图中的...

2018-12-12 21:07:25

阅读数 77

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭