大数据计算、Ai
silmeweed
这个作者很懒,什么都没留下…
展开
-
算法----TF-IDF(加权)
TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequency,缩写为IDF)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。一、TF-IDF算法步骤1.计算词频:2.计算逆文档频率:...原创 2020-08-06 23:27:47 · 1421 阅读 · 1 评论 -
算法--- K-Means 聚类
聚类:事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。k-means 聚类聚类算法有很多种,K-Means 是聚类算法中的最常用的一种.一、原理:K-Means 聚类算法的大致意思就是“物以类聚,人以群分”:首先输入 k 的值,即我们指定希望通过聚类得到 k 个分组; 从数据集中随机选取 k 个数据点作为初始大佬(质心); 对集合中每一个小弟,计算与每一个大佬的距离,离哪个大佬距离近,就跟定哪个大佬。 这时每一个大佬手下都原创 2020-08-06 21:51:26 · 150 阅读 · 0 评论 -
Flink-SQL-UDF(自定义函数)
主要讲三种udf:(SQL里可解释的Function)ScalarFunction TableFunction AggregateFunction用户自定义函数是非常重要的一个特征,因为他极大地扩展了查询的表达能力.1.用户自定义函数在使用之前是必须要注册的。调用TableEnvironment的registerFunction()方法来实现注册。Udf注册成功之后,会被插入TableEnvironment的function catalog,这样table API和sql就能解析他了。2.原创 2020-08-04 18:02:13 · 6279 阅读 · 0 评论