陈易德
码龄20年
关注
提问 私信
  • 博客:34,634
    社区:2,504
    37,138
    总访问量
  • 暂无
    原创
  • 2,006,782
    排名
  • 15
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2004-08-24
博客简介:

jyh2005的专栏

查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得2次评论
  • 获得98次收藏
  • 代码片获得147次分享
创作历程
  • 48篇
    2020年
成就勋章
TA的专栏
  • 数据结构和算法
    3篇
  • 用户画像
    1篇
  • NLP自然语言处理
    2篇
  • Alink
    30篇
  • 数据库
  • 数据挖掘
  • Calcite
    6篇
  • Phoenix
    4篇
  • Java基础
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

什么是用户画像?该怎么分析?

1、用户画像是什么用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用...
转载
发布博客 2020.05.15 ·
3367 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

搞编程,你必知必会的复杂度分析

在开发中,我们会经常听到关于时间复杂度、空间复杂度相关词汇,如果你没有这方面的知识,你肯定会一脸懵逼。那什么是时间复杂度、空间复杂度还有我们又怎么去分析?首先我们先来弄清楚我们为什么需要做复杂度分析。为什么需要复杂度分析?真实的时间复杂度、空间复杂度我们需要在机器上执行我们编写的代码,才能统计出我们的代码这这个环境下的真实时间复杂度、空间复杂度。这种方法统计出来的结果非常准确,但是极限性也...
转载
发布博客 2020.04.03 ·
312 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

NLP学习(二)—中文分词技术

本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位。分词技术是词性标注、命名实体识别、关键词提取等技术的基础。本篇博文会主要介绍基于规则的分词、基于统计的分词、jieba库等内容。一直在说中文分词,那中文分词和欧语系的分词有什么不同或者说是难点的呢?主要难...
转载
发布博客 2020.03.14 ·
1242 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

NLP学习(一)—基础篇

本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言2016年3月9日至15日和2017年5月23日至27日,分别在韩国首尔和中国嘉兴乌镇,韩国围棋九段棋手李世石、中国围棋九段棋手柯洁与人工智能围棋程序“阿尔法围棋”(AlphaGo)之间的两场比赛,人类均以失败告终,更是激起了各种“机器超越、控制人类”的讨论,然而机...
转载
发布博客 2020.03.14 ·
1915 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

在Flink集群部署Alink

在Flink集群部署Alink,需要部署三个Jar包(本文会有一个部分专门讲述如何获取),对于不同Flink集群环境,方式有些区别,本文主要讨论Standalone集群和Kubernetes集群。获取集群部署所需Jar包由于Alink可以通过Java和Python两种方式提交,建议在集群部署的时候将相关Jar包一起部署上去。Alink虽然没有单独提供集群部署Jar包的下载,但是所需Jar包...
转载
发布博客 2020.03.14 ·
902 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

PyAlink安装准备——阿里云服务器

本文会介绍如何在阿里云服务器上安装Alink,我们可以随时随地通过Web进行访问,也可以分享给朋友们一起使用。下载Anacondawget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2019.10-Linux-x86_64.sh安装Anaconda参考链接:https://docs.anacon...
转载
发布博客 2020.03.14 ·
437 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何安装最新版本PyAlink?

安装最新版本PyAlink在理想环境下,运行如下安装命令,便会安装上最新版本。pip install pyalink但在我的实际操作中,“环境”往往都不是理想的。首先是网络的问题,在下载的过程中经常会出现数据读取错误导致安装失败,我曾经连续尝试四次,才安装成功;在网络稍差的地方,下载速度很慢,每次尝试都要很久,这就要改变策略,访问PyPI镜像网站是个很好的办法,我访问的是阿里云的镜像...
转载
发布博客 2020.03.14 ·
804 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

PyAlink 1.1.0 安装实践

新版本的 PyAlink 提供了两个 Python 包:pyalink:始终对应 Alink Java 所支持的最新 Flink 版本,当前为 1.10 pyalink-flink-1.9:对应 Flink版本 1.9,注意:由于pyalink-flink-1.9的包比较大,需要在PyPI走额外的申请流程,暂时不能通过网络直接安装。还可以直接使用下面的链接下载 whl 包,然后使用pi...
转载
发布博客 2020.03.14 ·
477 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用 Maven 快速构建 Alink 项目

刚发布的Alink 1.1.0版本,支持发布到Maven Central,Java开发者通过Maven可以快速搭建Alink机器学习项目。本文将演示一个简单的构建方案,便于爱好者快速入门。先说一下相关的环境,Windows系统,使用的Jave编辑器是 InterlliJ IDEA(Version 2019.3.2),Java SDK的版本为1.8。第一步,创建项目在InterlliJ ...
转载
发布博客 2020.03.10 ·
259 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Alink 1.1.0发布,支持Flink 1.10和Flink 1.9

增强功能和新功能支持Flink 1.10和Flink 1.9。 https://github.com/alibaba/Alink/releases/tag/v1.1.0-flink-1.10 https://github.com/alibaba/Alink/releases/tag/v1.1.0-flink-1.9 对UDF / UDTF功能的改进,Java和PyAlink具有一致...
转载
发布博客 2020.03.10 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DataFrame和Alink批式数据的互相转化【Alink使用技巧】

Alink的批式数据源或者计算结果,如果能转成Python的DataFrame形式,则可以利用Python丰富的函数库及可视化功能,进行后续的分析和显示。Alink中每个批式数据源或批式算子都支持collectToDataframe()方法,不需要输入参数,返回的结果就是DataFrame。注意,该方法中带有collect字样,表明其执行过程中会使用Flink的collect方法,触发Flin...
转载
发布博客 2020.03.10 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Alink LocalPredictor简介

机器学习训练算法比较复杂,往往需要分布式进行,但是训练出来的模型进行预测相对简单很多,一般是单个节点装载整个模型,可以同时有多个预测节点,每个都装载整个模型,从而进行多路预测。很多不依赖模型的数据预处理算法也是这种模式,单个节点可以进行完整的操作,多个节点可以并行处理。使用我们的算法组件直接对批式的数据或者流式的数据进行预测,用户也希望我们能提供SDK的方式,即,由参数或模型数据直接构建一个本...
转载
发布博客 2020.03.10 ·
285 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Alink中文情感分析示例(Java版本)

情感分析是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向。本文将针对顾客对酒店的评论数据,进行建模,并通过模型进行预测。演示情感分析中的常用操作,包括分词,文本向量化,及使用朴素贝叶斯(Naive Bayes)方法进行建模、预测。使用的酒店评论数据集链接为:https://raw.githubusercontent.com/SophonPlus/C...
转载
发布博客 2020.03.10 ·
1027 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Alink在线学习(Online Learning)示例【五】—完结篇

基于前面几篇的准备工作,我们已经具备了初始模型、流式向量训练数据、流式向量预测数据,如下图蓝色节点所示。接下来,我们会进入该系列文章的关键时刻,演示如何接入FTRL在线训练模块及对应的在线预测模块。FTRL在线模型训练的代码如下,在FtrlTrainStreamOp的构造函数中输入初始模型initModel,随后是设置各种参数,并“连接“流式向量训练数据。# ftrl train ...
转载
发布博客 2020.03.10 ·
656 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Alink在线学习(Online Learning)示例【四】

上一篇我们训练并保存了特征工程处理模型,我们这里需要使用特征工程处理模型,将批式原始训练数据转化为批式向量训练数据;将流式原始训练数据转化为流式向量训练数据;将流式原始预测数据转化为流式向量预测数据。批式原始训练数据为:trainBatchData = CsvSourceBatchOp()\ .setFilePath("http://alink-release.oss-cn-...
转载
发布博客 2020.03.10 ·
362 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Alink在线学习(Online Learning)示例【三】

上一篇展示了数据,这里会继续深入了解数据,由数据列的描述信息,知道里面含有哪些数值型特征,哪些为枚举型特征。具体内容如下面脚本所示,labelColName = "click"selectedColNames =["C1","banner_pos","site_category","app_domain", "app_category","device_...
转载
发布博客 2020.03.10 ·
219 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Alink在线学习(Online Learning)示例【二】

本文的示例来自Alink的demo:https://github.com/alibaba/Alink/blob/master/pyalink/ftrl_demo.ipynb​github.com在网络广告中,点击率(CTR)是衡量广告效果的一个非常重要的指标。因此,点击预测系统在赞助搜索和实时竞价中具有重要的应用价值。该 Demo 使用Ftrl方法实时训练分类模型,并使用模型进行...
转载
发布博客 2020.03.10 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Alink在线学习(Online Learning)示例【一】

在线学习(Online Learning)是机器学习的一种模型训练方法,可以根据线上数据的变化,实时调整模型,是模型能够反映线上的变化,从而提高线上预测的准确率。为了更好的理解在线学习(Online Learning)的概念,我们先介绍与之相对应的概念:批量训练(Batch Learning),先确定一个样本训练集,针对训练集的全体数据进行训练,一般需要使用迭代过程,重复使用数据集,不断调整参...
转载
发布博客 2020.03.10 ·
731 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Alink Schema String简介【Alink使用技巧】

Alink在进行表数据读取和转换时,有时需要显示声明数据表的列名和列类型信息,即Schema信息。Schema String就是将此信息使用字符串的方式描述,这样便于作为Java函数或者Python函数的参数输入。Schema String的定义格式与SQL Create Table语句所输入的格式相同,列名与对应列类型间使用空格分隔,各列定义间使用逗号分隔。具体格式如下:colname...
转载
发布博客 2020.03.09 ·
539 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

在Linux,Mac下定时执行Alink任务

推荐使用Linux,Mac下用于设置周期性被执行的指令crontab,通过crontab来设置定时执行Alink任务。crontab简介crontab的命令格式为:crontab [-u user] filecrontab [-u user] [ -e | -l | -r ]各命令参数的解释如下:-u user:用来设定某个用户的crontab服务file:file是命...
转载
发布博客 2020.03.09 ·
135 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多