- 博客(10)
- 资源 (4)
- 收藏
- 关注
原创 自然语言处理中的文本聚类
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 聚类是典型的无监督学习方法,在自然语言处理中,聚类也是至关重要的。【英文文档的聚类】'''英文文档的聚类'''import...
2019-02-25 12:16:32 5086 2
原创 自然语言处理中的文本分类
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。1、首先来看一个使用朴素贝叶斯分类器对性别进行分类鉴定的例子。# 构造特征提取器def gender_features(word): # 提取出...
2019-02-23 16:15:01 1205 1
转载 隐马尔可夫模型(HMM)
隐马尔可夫模型(Hidden Markov Model,HMM),在语言识别、自然语言处理以及生物信息等领域体现了很大的价值。 考虑下面交通灯的例子,一个序列可能是红-红/橙-绿-橙-红。这个序列可以画成一个状态机,不同的状态按照这个状态机互相交替,每一个状态都只依赖于前一个状态,如果当前的是绿灯,那么接下来就是橙灯,这是一个确定性系统,因此更容易理解和分析,只要这些...
2019-02-20 16:09:36 1575
原创 词性标注器
声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。 词性标注在自然语言处理中也是很重要的一环,本篇文章将主要介绍一下相关的词性标注器,一起来看看吧~一、词性的初测 分...
2019-02-20 11:18:44 1138
原创 Slipstream中流与流、流与表之间的join
1、流之间的join Slipstream支持Window Stream之间的join操作。Window Stream在join的时候必须保证Slide的值一致,Length的值可以不同。 这里以系统时间切分滑动窗口为例进行说明。基于Kafka topic asd和zxc分别建立两个输入流s1和s2CREATE STREAM s1 (id STRING,...
2019-02-19 14:56:03 1119 4
原创 Slipstream中的无限滑动窗口(Infinite Window)
滑动窗口中有一个特例是无限滑动窗口——它的窗口长度为无限长(INFINITE)。它的意思是,窗口每滑动一个间隔会触发一次计算,但是每次触发计算的窗口都会包含所有之前的窗口覆盖的区间。例如:对于窗口长度为 INFINITE,滑动间隔为1s的滑动窗口,第一个窗口为[0s, 1s),第二个窗口为[0s, 2s),第三个窗口为[0s, 3s),依次类推。1、无限滑动窗口测试举例无限滑...
2019-02-19 14:46:46 704
原创 Slipstream中的Window Stream(窗口流)
Window Stream是Derived Stream的一种,对一个Stream进行窗口变形需要两个重要的参数:Length和Slide。Length是窗口的持续时间,Slide则是执行窗口操作的时间间隔。1 流处理的窗口以及窗口的切分方式 流处理的窗口有两种,分别是滑动窗口和跳动窗口。 滑动窗口需要由两个量来定义:窗口长度(LENGTH)和滑动...
2019-02-12 14:00:10 1454
原创 Slipstream中的并行流处理
与《Kafka中的消费者组》类似,Slipstream中多个流也可以同时接收同一topic的数据进行不同的操作。值得注意的是,Slipstream中的一个Input Stream对应着Kafka中的一个Consumer Group。1、并行流的建立 并行流的建立非常简单,在《Slipstream中的衍生流》建立的基础上,再建立一个新的输入流和衍生流即可,新建的输入...
2019-02-01 16:08:19 586
原创 Slipstream中的衍生流(Derived Stream)
《Flume、Kafka、Slipstream对接》中介绍的流属于输入流,一般原始数据并不是最终要输出的数据,它需要经过过滤,提炼,计算。这样一个过程称之为对Stream的转化。可以采用CSAS(CREATE STREAM AS SELECT)对已有的Stream进行变形。转化得到的新的Stream,称之为Derived Stream。1、衍生流的建立使用如下语句首先建立一...
2019-02-01 15:59:58 645
原创 Flume、Kafka、Slipstream对接
在启动Slipstream之前首先去到8180监控界面,查看Slipstream的server在node2节点上,如下图所示: Slipstream和Inceptor的server不在一个节点上,只能共同使用同一个源数据库,相关操作只能在Slipstream的引擎中操作。 安全模式下,一个Stream要成功读取/写入一个topic中的消息必须满...
2019-02-01 15:53:36 514
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人