数据处理
resourse_sharing
这个作者很懒,什么都没留下…
展开
-
hive-学习笔记
hive-学习笔记1.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分区查询数据 select table_c转载 2015-08-27 18:10:43 · 411 阅读 · 0 评论 -
NLP/ML/SML/DM etc. website
1、Python机器学习工具:http://scikit-learn.org/stable/index.html2、统计学:统计之都,http://cos.name/to be updating原创 2016-01-12 19:11:33 · 608 阅读 · 0 评论 -
双聚类的研究与进展
近年来随着基因芯片和DNA微阵列等高通量检测技术的发展,产生了众多的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出双聚类概念,目前这种聚类方法得到了越来越广泛的应用转载 2016-03-07 09:59:42 · 13683 阅读 · 0 评论 -
卡方检验x2检验(chi-square test)
x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。 一、四格表资料的x2检验 例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较转载 2016-07-07 16:31:01 · 70324 阅读 · 0 评论 -
特征选择常用算法综述
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其转载 2016-07-19 14:23:01 · 21616 阅读 · 0 评论 -
为什么要特征标准化及特征标准化方法
归一化化定义:归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。归一化的原因是什么那:一是为了后面数据处理的方便,把不同量纲的东西放在同一量纲下比较,即把不同来源的数据统一到一个参考系下,这样比较起来才有意义。特征标准化原创 2016-07-22 10:52:30 · 19768 阅读 · 0 评论 -
kd-tree
k-d树[1] (k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。K-D树是二进制空间分割树的特殊的情况。应用背景SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量之间进行相似性检索的问题。针对如何快速而准确地找到查询点的近邻,现转载 2016-08-11 14:33:27 · 809 阅读 · 0 评论