自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (4)
  • 收藏
  • 关注

原创 自然语言处理中的文本聚类

       声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。       聚类是典型的无监督学习方法,在自然语言处理中,聚类也是至关重要的。【英文文档的聚类】'''英文文档的聚类'''import...

2019-02-25 12:16:32 5086 2

原创 自然语言处理中的文本分类

       声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。1、首先来看一个使用朴素贝叶斯分类器对性别进行分类鉴定的例子。# 构造特征提取器def gender_features(word): # 提取出...

2019-02-23 16:15:01 1205 1

转载 隐马尔可夫模型(HMM)

       隐马尔可夫模型(Hidden Markov Model,HMM),在语言识别、自然语言处理以及生物信息等领域体现了很大的价值。       考虑下面交通灯的例子,一个序列可能是红-红/橙-绿-橙-红。这个序列可以画成一个状态机,不同的状态按照这个状态机互相交替,每一个状态都只依赖于前一个状态,如果当前的是绿灯,那么接下来就是橙灯,这是一个确定性系统,因此更容易理解和分析,只要这些...

2019-02-20 16:09:36 1575

原创 词性标注器

        声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注。        词性标注在自然语言处理中也是很重要的一环,本篇文章将主要介绍一下相关的词性标注器,一起来看看吧~一、词性的初测        分...

2019-02-20 11:18:44 1138

原创 Slipstream中流与流、流与表之间的join

1、流之间的join        Slipstream支持Window Stream之间的join操作。Window Stream在join的时候必须保证Slide的值一致,Length的值可以不同。        这里以系统时间切分滑动窗口为例进行说明。基于Kafka topic asd和zxc分别建立两个输入流s1和s2CREATE STREAM s1 (id STRING,...

2019-02-19 14:56:03 1119 4

原创 Slipstream中的无限滑动窗口(Infinite Window)

       滑动窗口中有一个特例是无限滑动窗口——它的窗口长度为无限长(INFINITE)。它的意思是,窗口每滑动一个间隔会触发一次计算,但是每次触发计算的窗口都会包含所有之前的窗口覆盖的区间。例如:对于窗口长度为 INFINITE,滑动间隔为1s的滑动窗口,第一个窗口为[0s, 1s),第二个窗口为[0s, 2s),第三个窗口为[0s, 3s),依次类推。1、无限滑动窗口测试举例无限滑...

2019-02-19 14:46:46 704

原创 Slipstream中的Window Stream(窗口流)

       Window Stream是Derived Stream的一种,对一个Stream进行窗口变形需要两个重要的参数:Length和Slide。Length是窗口的持续时间,Slide则是执行窗口操作的时间间隔。1 流处理的窗口以及窗口的切分方式       流处理的窗口有两种,分别是滑动窗口和跳动窗口。       滑动窗口需要由两个量来定义:窗口长度(LENGTH)和滑动...

2019-02-12 14:00:10 1454

原创 Slipstream中的并行流处理

       与《Kafka中的消费者组》类似,Slipstream中多个流也可以同时接收同一topic的数据进行不同的操作。值得注意的是,Slipstream中的一个Input Stream对应着Kafka中的一个Consumer Group。1、并行流的建立       并行流的建立非常简单,在《Slipstream中的衍生流》建立的基础上,再建立一个新的输入流和衍生流即可,新建的输入...

2019-02-01 16:08:19 586

原创 Slipstream中的衍生流(Derived Stream)

        《Flume、Kafka、Slipstream对接》中介绍的流属于输入流,一般原始数据并不是最终要输出的数据,它需要经过过滤,提炼,计算。这样一个过程称之为对Stream的转化。可以采用CSAS(CREATE STREAM AS SELECT)对已有的Stream进行变形。转化得到的新的Stream,称之为Derived Stream。1、衍生流的建立使用如下语句首先建立一...

2019-02-01 15:59:58 645

原创 Flume、Kafka、Slipstream对接

       在启动Slipstream之前首先去到8180监控界面,查看Slipstream的server在node2节点上,如下图所示:        Slipstream和Inceptor的server不在一个节点上,只能共同使用同一个源数据库,相关操作只能在Slipstream的引擎中操作。        安全模式下,一个Stream要成功读取/写入一个topic中的消息必须满...

2019-02-01 15:53:36 514

Kafka监控工具.zip

kafka web页面的监控工具包,适合学习大数据或者kafka的人群使用

2021-03-09

rzsz3.48.zip

用于Linux操作系统上传、下载文件的工具,rz为上传,sz为下载,该版本为3.48

2019-10-02

mysql57-community-release-el6-8.noarch.rpm

安装MySQL数据库5.6的版本,需要更新yum源,这个插件用作更新yum。

2018-03-12

hadoop环境搭建

该资源为Hadoop2.x环境搭建的操作流程以及一些相关的简单操作,适合初学者,该资源为博主原创,如有错误,欢迎大家批评指正。

2017-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除