数据挖掘
文章平均质量分 93
wty19
这个作者很懒,什么都没留下…
展开
-
FLINK Notebook 混合编程:PYTHON (一)
本文介绍了 Py4j的使用以及 Flink官方如何使用 Py4j进行混合语言编程,最后会介绍下我们会应用这种技术在我们的 Flink Notebook 服务,来创建一个混合语言编程环境。Flink Notebook 服务是我司自研的基于Notebook方式的Flink 开发平台,他支持用户通过SQL方式和JAR包方式进行混合编程,并通过一些配置,既可完全的在页面上完成FLINK任务的开发工作,如图: 通过不同的Notebook Type我们可以加载不同类型的组件,通过table结果集流转方式,承.原创 2021-05-14 22:18:21 · 788 阅读 · 2 评论 -
[学习] 数据挖掘-聚类算法(K-means,层次聚类)
1.参考文章:http://blog.csdn.net/jwh_bupt/article/details/7685809http://coolshell.cn/articles/7779.html2.自己的小实现留念:位置数据结构:public class Location { int x; int y; String name;原创 2014-03-13 11:32:24 · 1248 阅读 · 0 评论 -
[学习] 数据挖掘-贝叶斯分类(例子,代码)
什么是贝叶斯分类:首先举个经典的例子, A病症检测: 有1/100的人A病症检测会成阳性,地球上有1/1000的人会的A病症,得了A病症的人有90%的概率显示A病症检测阳性,那么当一个人A病症检测阳性了他的得A病的概率是?答案是 1/1000*0.9*100 = 0.09 9%的概率,怎么证明网上有很多,@link:http://www.cnblogs.com/leoo2sk/archiv原创 2014-03-13 17:25:20 · 2182 阅读 · 0 评论 -
网页点击热力图统计
热力图,要么对方填写button click的名字,对应后台(类似事件),要么靠坐标系来做通用的,这里考虑通用做法,做起来也是一个通用服务。另外,我这边没有调研怎么显示的,感觉开源展示那应该有吧。应该搞得定,就是好看不好看的问题。主要梳理了下整个流程。还有就是需要页面埋关键点,否则无法保证准确。显示的时候,绘图用200point 来绘制,po原创 2016-05-20 17:02:38 · 6841 阅读 · 0 评论 -
记一次后台存储方案优化
序列化方案JsonprotobufJDK Serializable测试方法 String line = "{很复杂的json,需要保密}"; DataStructure d = json.fromJson(line, DataStructure.class); long time = System.currentTimeMillis(); lo原创 2016-10-26 14:58:50 · 594 阅读 · 2 评论