- 博客(48)
- 资源 (41)
- 收藏
- 关注
转载 什么是用户画像?该怎么分析?
1、用户画像是什么用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用...
2020-05-15 00:23:13 3147
转载 搞编程,你必知必会的复杂度分析
在开发中,我们会经常听到关于时间复杂度、空间复杂度相关词汇,如果你没有这方面的知识,你肯定会一脸懵逼。那什么是时间复杂度、空间复杂度还有我们又怎么去分析?首先我们先来弄清楚我们为什么需要做复杂度分析。为什么需要复杂度分析?真实的时间复杂度、空间复杂度我们需要在机器上执行我们编写的代码,才能统计出我们的代码这这个环境下的真实时间复杂度、空间复杂度。这种方法统计出来的结果非常准确,但是极限性也...
2020-04-03 00:48:14 297
转载 NLP学习(二)—中文分词技术
本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位。分词技术是词性标注、命名实体识别、关键词提取等技术的基础。本篇博文会主要介绍基于规则的分词、基于统计的分词、jieba库等内容。一直在说中文分词,那中文分词和欧语系的分词有什么不同或者说是难点的呢?主要难...
2020-03-14 00:22:41 1140
转载 NLP学习(一)—基础篇
本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言2016年3月9日至15日和2017年5月23日至27日,分别在韩国首尔和中国嘉兴乌镇,韩国围棋九段棋手李世石、中国围棋九段棋手柯洁与人工智能围棋程序“阿尔法围棋”(AlphaGo)之间的两场比赛,人类均以失败告终,更是激起了各种“机器超越、控制人类”的讨论,然而机...
2020-03-14 00:22:28 1842
转载 在Flink集群部署Alink
在Flink集群部署Alink,需要部署三个Jar包(本文会有一个部分专门讲述如何获取),对于不同Flink集群环境,方式有些区别,本文主要讨论Standalone集群和Kubernetes集群。获取集群部署所需Jar包由于Alink可以通过Java和Python两种方式提交,建议在集群部署的时候将相关Jar包一起部署上去。Alink虽然没有单独提供集群部署Jar包的下载,但是所需Jar包...
2020-03-14 00:22:02 870
转载 PyAlink安装准备——阿里云服务器
本文会介绍如何在阿里云服务器上安装Alink,我们可以随时随地通过Web进行访问,也可以分享给朋友们一起使用。下载Anacondawget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2019.10-Linux-x86_64.sh安装Anaconda参考链接:https://docs.anacon...
2020-03-14 00:21:46 412
转载 如何安装最新版本PyAlink?
安装最新版本PyAlink在理想环境下,运行如下安装命令,便会安装上最新版本。pip install pyalink但在我的实际操作中,“环境”往往都不是理想的。首先是网络的问题,在下载的过程中经常会出现数据读取错误导致安装失败,我曾经连续尝试四次,才安装成功;在网络稍差的地方,下载速度很慢,每次尝试都要很久,这就要改变策略,访问PyPI镜像网站是个很好的办法,我访问的是阿里云的镜像...
2020-03-14 00:21:32 774
转载 PyAlink 1.1.0 安装实践
新版本的 PyAlink 提供了两个 Python 包:pyalink:始终对应 Alink Java 所支持的最新 Flink 版本,当前为 1.10 pyalink-flink-1.9:对应 Flink版本 1.9,注意:由于pyalink-flink-1.9的包比较大,需要在PyPI走额外的申请流程,暂时不能通过网络直接安装。还可以直接使用下面的链接下载 whl 包,然后使用pi...
2020-03-14 00:21:15 454
转载 使用 Maven 快速构建 Alink 项目
刚发布的Alink 1.1.0版本,支持发布到Maven Central,Java开发者通过Maven可以快速搭建Alink机器学习项目。本文将演示一个简单的构建方案,便于爱好者快速入门。先说一下相关的环境,Windows系统,使用的Jave编辑器是 InterlliJ IDEA(Version 2019.3.2),Java SDK的版本为1.8。第一步,创建项目在InterlliJ ...
2020-03-10 01:32:48 239
转载 Alink 1.1.0发布,支持Flink 1.10和Flink 1.9
增强功能和新功能支持Flink 1.10和Flink 1.9。 https://github.com/alibaba/Alink/releases/tag/v1.1.0-flink-1.10 https://github.com/alibaba/Alink/releases/tag/v1.1.0-flink-1.9 对UDF / UDTF功能的改进,Java和PyAlink具有一致...
2020-03-10 01:32:33 214
转载 DataFrame和Alink批式数据的互相转化【Alink使用技巧】
Alink的批式数据源或者计算结果,如果能转成Python的DataFrame形式,则可以利用Python丰富的函数库及可视化功能,进行后续的分析和显示。Alink中每个批式数据源或批式算子都支持collectToDataframe()方法,不需要输入参数,返回的结果就是DataFrame。注意,该方法中带有collect字样,表明其执行过程中会使用Flink的collect方法,触发Flin...
2020-03-10 01:32:20 331
转载 Alink LocalPredictor简介
机器学习训练算法比较复杂,往往需要分布式进行,但是训练出来的模型进行预测相对简单很多,一般是单个节点装载整个模型,可以同时有多个预测节点,每个都装载整个模型,从而进行多路预测。很多不依赖模型的数据预处理算法也是这种模式,单个节点可以进行完整的操作,多个节点可以并行处理。使用我们的算法组件直接对批式的数据或者流式的数据进行预测,用户也希望我们能提供SDK的方式,即,由参数或模型数据直接构建一个本...
2020-03-10 01:32:04 260
转载 Alink中文情感分析示例(Java版本)
情感分析是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向。本文将针对顾客对酒店的评论数据,进行建模,并通过模型进行预测。演示情感分析中的常用操作,包括分词,文本向量化,及使用朴素贝叶斯(Naive Bayes)方法进行建模、预测。使用的酒店评论数据集链接为:https://raw.githubusercontent.com/SophonPlus/C...
2020-03-10 01:31:42 1004
转载 Alink在线学习(Online Learning)示例【五】—完结篇
基于前面几篇的准备工作,我们已经具备了初始模型、流式向量训练数据、流式向量预测数据,如下图蓝色节点所示。接下来,我们会进入该系列文章的关键时刻,演示如何接入FTRL在线训练模块及对应的在线预测模块。FTRL在线模型训练的代码如下,在FtrlTrainStreamOp的构造函数中输入初始模型initModel,随后是设置各种参数,并“连接“流式向量训练数据。# ftrl train ...
2020-03-10 01:31:23 618
转载 Alink在线学习(Online Learning)示例【四】
上一篇我们训练并保存了特征工程处理模型,我们这里需要使用特征工程处理模型,将批式原始训练数据转化为批式向量训练数据;将流式原始训练数据转化为流式向量训练数据;将流式原始预测数据转化为流式向量预测数据。批式原始训练数据为:trainBatchData = CsvSourceBatchOp()\ .setFilePath("http://alink-release.oss-cn-...
2020-03-10 01:31:09 350
转载 Alink在线学习(Online Learning)示例【三】
上一篇展示了数据,这里会继续深入了解数据,由数据列的描述信息,知道里面含有哪些数值型特征,哪些为枚举型特征。具体内容如下面脚本所示,labelColName = "click"selectedColNames =["C1","banner_pos","site_category","app_domain", "app_category","device_...
2020-03-10 01:30:55 204
转载 Alink在线学习(Online Learning)示例【二】
本文的示例来自Alink的demo:https://github.com/alibaba/Alink/blob/master/pyalink/ftrl_demo.ipynbgithub.com在网络广告中,点击率(CTR)是衡量广告效果的一个非常重要的指标。因此,点击预测系统在赞助搜索和实时竞价中具有重要的应用价值。该 Demo 使用Ftrl方法实时训练分类模型,并使用模型进行...
2020-03-10 01:30:41 329
转载 Alink在线学习(Online Learning)示例【一】
在线学习(Online Learning)是机器学习的一种模型训练方法,可以根据线上数据的变化,实时调整模型,是模型能够反映线上的变化,从而提高线上预测的准确率。为了更好的理解在线学习(Online Learning)的概念,我们先介绍与之相对应的概念:批量训练(Batch Learning),先确定一个样本训练集,针对训练集的全体数据进行训练,一般需要使用迭代过程,重复使用数据集,不断调整参...
2020-03-10 01:30:26 691
转载 Alink Schema String简介【Alink使用技巧】
Alink在进行表数据读取和转换时,有时需要显示声明数据表的列名和列类型信息,即Schema信息。Schema String就是将此信息使用字符串的方式描述,这样便于作为Java函数或者Python函数的参数输入。Schema String的定义格式与SQL Create Table语句所输入的格式相同,列名与对应列类型间使用空格分隔,各列定义间使用逗号分隔。具体格式如下:colname...
2020-03-09 00:18:40 519
转载 在Linux,Mac下定时执行Alink任务
推荐使用Linux,Mac下用于设置周期性被执行的指令crontab,通过crontab来设置定时执行Alink任务。crontab简介crontab的命令格式为:crontab [-u user] filecrontab [-u user] [ -e | -l | -r ]各命令参数的解释如下:-u user:用来设定某个用户的crontab服务file:file是命...
2020-03-09 00:18:23 117
转载 Alink如何读写文本数据【Alink使用技巧】
Alink文本读写组件使用起来非常简单,每个换行符对应一条数据,只需指定文件的路径即可。譬如,我们想看一下iris数据,但不想花时间详细定义其数据列名及类型,就可以将其每条数据简单地看作一行文本,使用TextSourceBatchOp,并设置文件路径的参数。iris_text = TextSourceBatchOp().setFilePath("http://archive.ics.uci....
2020-03-09 00:16:33 298
转载 Alink如何读写Libsvm格式数据【Alink使用技巧】
LIBSVM数据格式就是LIBSVM(https://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html)使用的数据格式,是机器学习领域中比较常见的一种形式。其格式定义如下:<label> <index1>:<value1> <index2>:<value2> ...第一项<label...
2020-03-09 00:16:08 246
转载 Python数组如何转化为批式数据源?【Alink使用技巧】
其方法是将DataFrame作为桥梁,分两步实现的:首先,Python Pandas提供了几种途径,可以在代码中直接输入数据,并构建DataFrame PyAlink提供了DataFrame到SourceBatchOp的转换示例如下,首先import pandas,然后定义一个包含String及整数类型的二维数组,并将其转化为DataFrame.import pandas as pd...
2020-03-09 00:15:51 183
转载 批式CSV数据读取【Alink使用技巧】
基本操作我们先下载个csv文件用作后面的测试数据。将数据文件http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data下载到本地,文件路径为 /Users/yangxu/flinkml/data/iris/iris.data,使用文本编辑器打开如下所示,每行为一条数据,每条数据包括4个数值字段和一个字符串字...
2020-03-09 00:15:16 390
转载 Alink连接Kafka数据源(Java版本)
本文主要讨论如何使用Alink的Kafka连接组件(Kafka011SourceStreamOp和Kafka011SinkStreamOp)读取写入数据。如何你需要一个本地的Kafka数据源进行实验,可以参考我另外一篇文章,详细介绍了搭建Kafka及建立Topic的过程。Alink品数:在MacOS上搭建Kafkazhuanlan.zhihu.comAlink品数:在Windo上搭建Kafk...
2020-03-09 00:14:29 800
转载 在Windows上搭建Kafka
Kafka是流式计算中重要的数据源,我分享一下在本机Windows上搭建Kafka的经验。一、下载、安装Kafka访问Kafka的主页:Apache Kafkakafka.apache.org进入其下载页面,截图如下:选择相应的版本,这里选择 kafka_2.11-2.4.0.tgz,进入下面的页面:选择清华的镜像站点进行下载。下载到本地后,将文件解压到 D:...
2020-03-09 00:14:10 150
转载 Alink连接Kafka数据源(Python版本)
本文主要讨论如何使用Alink的Kafka连接组件(Kafka011SourceStreamOp和Kafka011SinkStreamOp)读取写入数据。如何你需要一个本地的Kafka数据源进行实验,可以参考我另外一篇文章,详细介绍了搭建Kafka及建立Topic的过程。Alink品数:在MacOS上搭建Kafkazhuanlan.zhihu.comAlink品数:在Windo上搭建Kafk...
2020-03-09 00:13:31 179
转载 如何在阿里云服务器安装Alink
我前面写文章介绍了如何在本地安装Alink在Windows上安装https://zhuanlan.zhihu.com/p/97020481 在MacOS上安装https://zhuanlan.zhihu.com/p/97227604本文会介绍如何在阿里云服务器上安装Alink,我们可以随时随地通过Web进行访问,也可以分享给朋友们一起使用。下载Anacondawget htt...
2020-03-09 00:13:02 250
转载 如何在Windows系统安装Alink
安装Anaconda3大家在搜索关键词“windows anoconda”就可以看到相关的安装步骤。Anaconda网址:https://www.anaconda.com/distribution/#download-section需要注意的是,由于PyAlink只能运行在Python3以上的版本,Anaconda3自带的Python3.x,所以一定要选Anaconda3另外,对于...
2020-03-08 16:38:42 788
转载 开源 | 全球首个批流一体机器学习平台 Alink
背景随着大数据时代的到来和人工智能的崛起,机器学习所能处理的场景更加广泛和多样。构建的模型需要对批量数据进行处理,为了达到实时性的要求还需要直接对流式数据进行实时预测,还要具备将模型应用在企业应用和微服务上能力。为了取得更好的业务效果,算法工程师们需要尝试更多更复杂的模型,需要处理更大的数据集,使用分布式集群已经成为常态;为了及时对市场的变化进行反应,越来越多的业务选用在线学习方式直接处...
2020-03-08 16:35:43 684
转载 Alink在线学习(Online Learning)之Java示例【六】
最后,贴出完整代码,感兴趣的读者可以运行实验。注意,由于示例中需要演示中间结果,有很多打印或执行的方法,我现将调用这些方法的代码设为了注释,读者可以自己释放某些代码,查看运行效果。package com.alibaba.alink;import com.alibaba.alink.operator.batch.BatchOperator;import com.alibaba.ali...
2020-03-08 16:01:38 487 1
转载 Alink在线学习(Online Learning)之Java示例【五】
基于前面几篇的准备工作,我们已经具备了初始模型、流式向量训练数据、流式向量预测数据,如下图蓝色节点所示。接下来,我们会进入该系列文章的关键时刻,演示如何接入FTRL在线训练模块及对应的在线预测模块。FTRL在线模型训练的代码如下,在FtrlTrainStreamOp的构造函数中输入初始模型initModel,随后是设置各种参数,并“连接“流式向量训练数据。# ftrl train ...
2020-03-08 15:58:54 224
转载 Alink在线学习(Online Learning)之Java示例【四】
上一篇我们训练并保存了特征工程处理模型,我们这里需要使用特征工程处理模型,将批式原始训练数据转化为批式向量训练数据;将流式原始训练数据转化为流式向量训练数据;将流式原始预测数据转化为流式向量预测数据。批式原始训练数据为:CsvSourceBatchOp trainBatchData = new CsvSourceBatchOp() .setFilePath("http://alin...
2020-03-08 15:57:53 250
转载 Alink在线学习(Online Learning)之Java示例【三】
上一篇展示了数据,这里会继续深入了解数据,由数据列的描述信息,知道里面含有哪些数值型特征,哪些为枚举型特征。具体内容如下面脚本所示,String labelColName = "click";String[] selectedColNames = new String[] { "C1", "banner_pos", "site_category", "app_domain", "app...
2020-03-08 15:56:57 224
转载 Alink在线学习(Online Learning)之Java示例【二】
首先,我们需要一个Java的工程,配置好相关环境。最简单的办法是使用Alink的example工程,下载Alink git的代码,并用Jave IDE打开项目,如下图所示,可以看到三个已经写好的示例:ALSExample, GBDTExample, KMeansExample.我们在com.alibaba.alink package下新建一个Java文件:package com.al...
2020-03-08 15:55:09 350
转载 Alink在线学习(Online Learning)之Java示例【一】
Alink是基于Flink的机器学习算法平台,欢迎访问Alink的github获取下载链接及更多信息。alibaba/Alinkgithub.com序前面发表了一系列文章介绍如何使用Python进行Alink在线学习(Online Learning),有读者反馈需要Java版本的,虽然这两个版本在算法原理上是一样的,但是在使用的过程中还有很多差异,为了便于读者快速使用Java上手Al...
2020-03-08 15:52:14 977
转载 数据结构中堆、栈和队列的理解
一、堆堆是一种经过排序的树形数据结构,每个节点都有一个值,通常我们所说的堆的数据结构是指二叉树。所以堆在数据结构中通常可以被看做是一棵树的数组对象。而且堆需要满足一下两个性质:(1)堆中某个节点的值总是不大于或不小于其父节点的值;(2)堆总是一棵完全二叉树。堆分为两种情况,有最大堆和最小堆。将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。下图图一就是一个最大堆,图...
2020-03-08 00:13:47 346
转载 什么是“堆”,"栈","堆栈","队列",它们的区别
如果你学过数据结构,就一定会遇到“堆”,"栈","堆栈","队列",而最关键的是这些到底是什么意思?最关键的是即使你去面试,这些都还会问到,所以如果你不懂对你是损失很大的。堆栈都是一种数据项按序排列的数据结构,只能在一端(称为栈顶(top))对数据项进行插入和删除。要点:堆:顺序随意 栈:后进先出(Last-In/First-Out)堆 堆:什么是堆?又该怎...
2020-03-08 00:10:30 394
转载 Phoenix 简单介绍
1. Phoenix定义Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。put the SQL back in NoSQLPhoenix完全使用Java编写,作为HBase内嵌的...
2020-02-09 02:05:27 3951
转载 Apache Phoenix系列 | 从入门到精通续集
如何使用自增ID在传统关系型数据库中设计主键时,自增ID经常被使用。不仅能够保证主键的唯一,同时也能简化业务层实现。Phoenix怎么使用自增ID,是我们这篇文章的重点。一.语法说明1. 创建自增序列CREATE SEQUENCE [IF NOT EXISTS] SCHEMA.SEQUENCE_NAME[START WITH number][INCREMENT BY n...
2020-02-09 02:00:54 235
Akka入门与实践
2018-05-31
深入理解Spark 核心思想与源码分析
2018-05-22
Spark技术内幕 深入解析Spark内核架构设计与实现原理
2018-05-22
系统架构设计师 第四版 高清 带书签
2018-05-11
Spark原著中文版
2018-04-30
PingCAP TiDB 中文技术手册 2017 pdf
2018-03-25
亿级流量网站架构核心技术 带书签 高清 完整版 pdf
2018-03-11
App后台开发运维和架构实践 pdf 完整版
2018-03-11
Java8虚拟机规范 高清完整 带书签 pdf
2018-02-27
《Java多线程编程核心技术》带书签 目录 高清完整版 PDF
2018-02-26
IA-32架构软件开发人员手册_1~3卷:系统编程指南
2018-02-22
SaltStack运维实战 PDF
2018-02-12
DevOps实践
2018-02-12
Docker进阶与实战 高清完整版 带书签 PDF
2018-02-01
Linux防火墙 原书第3版 带书签PDF电子书
2018-01-31
App后台开发运维和架构实践 完整版 pdf
2018-01-30
架构即未来-现代企业可扩展的Web架构流程和组织 第二版 完整带书签
2018-01-30
尽在双11:阿里巴巴技术演进与超越-高清完整版带书签版
2018-01-29
Kibana中文指南
2018-01-14
Docker进阶与实战
2017-12-04
Docker技术入门与实战 带书签 高清完整PDF版
2017-11-20
Maven3实战
2015-11-09
eclipse 插件 Javascript Debug Toolkit
2011-09-16
IBM Rational Software Architect Standard Edition 7.5 和 7.5.2 7.5.3 7.5.4 7.5.5 破解
2010-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人