![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库与数据挖掘
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
Canopy聚类算法说明
Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。基本的算法是,从一个点集合开始并且随机删除一个,创建一个包含这个店的Canopy,并在剩余的点集合上迭代。对原创 2011-09-15 18:45:22 · 1087 阅读 · 0 评论 -
使用朴素贝叶斯算法,通过用户安装的APP列表来推测用户的性别
从本质上来说,这是一个分类问题,类似于通过邮件内容来推测垃圾邮件,通过用户的相关信息来推测用户是否会拖欠贷款,而通过用户的APP安装列表来推测用户的性别也是一个类似的问题。对于贝叶斯算法来首,我们首先需要一个训练集数据,这个训练集是一个已经打好标签的数据。而要对一堆的数据打标签,人工来做是不太合适的,在这里需要结合人类与计算机各自的优势,来半自动化的识别出比较明显的有性别倾向的APP的原创 2015-07-31 14:54:46 · 11387 阅读 · 5 评论 -
另一种扩展并加速Hadoop计算能力的计算架构—Presto
Hadoop自身的MapReduce计算框架是非常chua原创 2014-09-25 11:13:41 · 6611 阅读 · 0 评论 -
对HDFS存储粒度的一点新认识
首先HDFS是适合大文件存储的文件系统,对于过多的小文件的应用场景并不适合。以下是一些使用过程中的经验和总结,希望对大家有所帮助,当然,如有谬误,也请大家指出,欢迎讨论。过犹不及——根据数据查询需求,定制数据存储粒度为了尽可能的细化数据存储粒度,我们对于每个产品的数据,按天进行隔离存储,这样,我们在查询某个产品某天的数据时,从HDFS中读取的数据就只是那一天的数据,这样从IO层面上原创 2014-03-28 11:39:32 · 1941 阅读 · 0 评论 -
监督学习之k Nearest Neighbors算法
首先说kNN算法是一种有监督学习的分类算法。所谓有监督学习,就是在应用算法之前我们必须准备一组训练集,训练集中的每个实例都是由一些特征和一个分类标签组成;通常还会存在一个测试集,用来测试训练出来的分类模型的准确性。其实kNN算法并没有体现出有监督学习的所有特点,没有模型,只有算法。甚至可以说这就是一种暴力扫描法,运行效率上比较低效。在理解算法之前,先要了解多维空间中两个点之间的距离的概原创 2013-06-20 12:00:29 · 1592 阅读 · 0 评论 -
一个数据应用闭环
收集:各种开源的分布式日志收集系统:Scribe, Flume等等存储可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型:底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等关系存储:MySQL,Postgresql等等键值存储:HBase,Redis等等计算计算能力也应该同时包含集中不同的类型,可根据不同的需求增减相应原创 2012-11-14 18:17:24 · 2025 阅读 · 0 评论 -
跨国际链路的数据服务系统架构设计的一种实现思路
现在数据在互联网产品中发挥的作用越来越大,很多公司都开始收集数据、整理数据,之后再数据建模、分析数据;最终我们得到的是知识,是某种规律的发现。发现知识和规律之后,我们需要将这些知识和规律运用到产品的改进或者运营中去。有些知识可以渗透在整个产品的设计中,比如说,我们通过数据分析发现,对于某种类型的网站的用户,他们大多数喜欢暖色调,那么我们就可以在设计界面的时候,多去使用一些暖色调;但是有些知识却不能原创 2012-07-30 16:15:12 · 2037 阅读 · 0 评论 -
R+Hadoop Rhipe部署
R版本R-2.14.2Rhipe版本0.66protobuf版本2.4.1首先安装R语言软件,需要注意configure时,先设置几个环境变量,编译长shared lib cd R-2.14.2export CFLAGS=-fPICexport CXXFLAGS=-fPIC./configure --with-x=no --enable-R-shlib原创 2012-03-12 14:41:49 · 2876 阅读 · 0 评论 -
支持度(support)和置信度(confidence)
支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。 置信度(Confidence)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100转载 2012-03-02 10:36:41 · 8588 阅读 · 1 评论 -
HDFS读取文件过程
从HDFS中读取一个文件,都需要做些什么呢?我们拿一个简单的例子来看一下:import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop原创 2011-12-26 13:04:25 · 6960 阅读 · 0 评论 -
Hadoop/Hive简介
Hadoop是一个存储计算框架,主要由两部分组成:存储(Hadoop分布式文件系统-HDFS)计算(MapReduce计算框架)Hadoop分布式文件系统这是一种文件系统实现,类似于NTFS,ext3,ext4等等,不过它是建立在更高的层次之上的。在HDFS上存储的文件被分成块(每块默认未64M,比一般的文件系统块大小大的多,可调)分布在原创 2011-11-22 15:01:13 · 4049 阅读 · 0 评论 -
CentOS 6 64bit下,Python数据分析环境搭建
首先是基础环境安装:wget http://download.zeromq.org/zeromq-3.2.2.tar.gztar xvzf zeromq-3.2.2.tar.gzcd zeromq-3.2.2./configure && make && make installyum install gcc-gfortranyum install freetype-develyu原创 2013-04-11 09:58:25 · 5064 阅读 · 3 评论