在PostgreSQL中如何生成kmean算法的测试数据

最新推荐文章于 2022-03-15 00:18:08 发布

weixin_34341117

最新推荐文章于 2022-03-15 00:18:08 发布

阅读量167

点赞数

文章标签：数据结构与算法数据库

原文链接：https://yq.aliyun.com/articles/53992

版权

生成Kmeans的测试数据。
例如每10000为界，生成10个种子，每个节点以100内的随机数相加，生成一组测试数据。

postgres=# create table test(id int, rand int);
CREATE TABLE

postgres=# insert into test select id*10000,trunc(random()*100 + id*10000) from generate_series(1,10) t(id), generate_series(1,100000) t1(rand);
INSERT 0 1000000

postgres=# select id,count(*) from test group by id;
   id   | count  
--------+--------
  10000 | 100000
  60000 | 100000
  40000 | 100000
  30000 | 100000
  90000 | 100000
  20000 | 100000
 100000 | 100000
  50000 | 100000
  70000 | 100000
  80000 | 100000
(10 rows)

直接使用kmeans分为10类，不设置种子的话，分得不是很准确。

postgres=# select k,id,count(*) from (select kmeans(array[rand], 10) over () k, id from test) t group by 1,2 order by 1,2;
 k |   id   | count  
---+--------+--------
 0 |  10000 | 100000
 0 |  20000 | 100000
 1 |  30000 |  49707
 2 |  30000 |  50293
 3 |  40000 | 100000
 4 |  50000 | 100000
 5 |  60000 | 100000
 6 |  70000 | 100000
 7 |  80000 |  49871
 8 |  80000 |  50129
 9 |  90000 | 100000
 9 | 100000 | 100000
(12 rows)

使用正确的种子后，分类精准。

postgres=# select k,id,count(*) from (select kmeans(array[rand], 10, array[10000,20000,30000,40000,50000,60000,70000,80000,90000,100000]) over () k, id from test) t group by 1,2 order by 1,2;
 k |   id   | count  
---+--------+--------
 0 |  10000 | 100000
 1 |  20000 | 100000
 2 |  30000 | 100000
 3 |  40000 | 100000
 4 |  50000 | 100000
 5 |  60000 | 100000
 6 |  70000 | 100000
 7 |  80000 | 100000
 8 |  90000 | 100000
 9 | 100000 | 100000
(10 rows)

参考
http://blog.163.com/digoal@126/blog/static/163877040201571745048121/
http://pgxn.org/dist/kmeans/

weixin_34341117

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_34341117 CSDN认证博客专家 CSDN认证企业博客

码龄9年

150: 原创

-: 周排名

43万+: 总排名

131万+: 访问

: 等级

7775: 积分

4145: 粉丝

217: 获赞

10: 评论

1278: 收藏

私信

关注

热门文章

最新评论

最强半自动化抓鸡工具打造思路
weixin_62599558: cvedetails首先有些exp并没有列到对应的cve条目上（不懂为什么），其次在真正的渗透中我们需要自己扫描ip存在的服务。 shodan和zoomeye主是列出了主机相关的cve。并没有直接列出exp。 autosploit为了实现自动化，只能使用特定格式的msf模块，一些可以攻击的百规范化exp都被舍弃了。结命以上各工具优缺点，我们这里选实现的“IP-服务-CVE-EXP”三步，舍弃掉最后攻击一步。其实从标题“抓鸡”可知最初而言是希望能实现autosploit那样的自动化攻击，但实现过程中发现存在想得太简单，不是别人只想到集成而没想到自动化而是有很多问题。所以本文“抓鸡”是标题党，“最强”也是标题党，后来补上去的“半自动化”也是标题党，程序只算能运行起来。不过对于采集CVE、MSF模块和exploitdb的exp及进一步的应急响应都还算有些意义。
如何快速梳理领域文献
Vicki.2: 你好，想知道在运用VOSviewer之后下一步要如何去筛选文件？
Linux下 PCL源码安装
gjhaoiaao: make报错 make[2]: *** [io/tools/CMakeFiles/pcl_hdl_grabber.dir/build.make:281：bin/pcl_hdl_grabber] 错误 1 make[1]: *** [CMakeFiles/Makefile2:1589：io/tools/CMakeFiles/pcl_hdl_grabber.dir/all] 错误 2
s3cmd用法总结
qin147896325: 大神rinclude有没有sample cmd，谢谢
Matlab图像处理系列4———傅立叶变换和反变换的图像
a543760828: 写的不错哦,欢迎回访我的博客哦

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。