- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 核方法和支持向量机
#!/usr/bin/python#核方法和支持向量机class matchrow(): # def __init__(self,row,allnum=False): if allnum: self.data=[float(row[i] for i in range(len(row) - 1))] else:
2013-07-30 12:31:35 1826
原创 【数据挖掘】代价模型
贝叶斯分类、决策树、和向量机对于基于多个不同因素的数值数据做预测,并不是最好的。构建数据集#!/usr/bin/pythonfrom random import random,randintimport math#构建数据集,酒的等级越高,其实价格越高,增加其价格直到peak age#而酒等级越低,其实价格便宜,且变得越便宜#生成就得价格def wineprice(rating
2013-07-26 09:05:44 1539 1
原创 在Hive中添加函数
添加永久函数 1)在hive客户端机的安装目录下修改hive-env.sh中的:export HIVE_AUX_JARS_PATH=“hive udf jar目录” 2)在安装目录下添加hive-function.properties文件 文件内容为函数名与类名的映射关系 domain=*.hive.udf.UD
2013-07-24 17:58:25 1370
原创 【数据挖掘】决策树之CART (Classification and Regression Trees)分类与回归树
决策树是一种简单的机器学习方法,它是完全透明的分类观测方法,经过训练后由一系列if-then判断语句组成一棵树。#!/usr/bin/pythonmy_data=[['slashdot','USA','yes',18,'None'], ['google','France','yes',23,'Premium'], ['digg','USA','yes',24,
2013-07-24 09:48:53 3166
原创 【数据挖掘】文档分类之朴素贝叶斯算法
#!/usr/bin/pythonimport reimport mathdef getwords(doc): splitter=re.compile('\\W*') # Split the words by non-alpha characters words=[s.lower() for s in splitter.split(doc) if len(s)
2013-07-21 21:42:25 1217
原创 【数据挖掘】最优化算法入门
optimization用来解决以下问题:有多个变量协作,多种可能方法,输出很大程度上依赖各种变量的协作。 预测:通过尝试多种不同方法,并为它们打分来决定其效果。#!/usr/bin/pythonimport timeimport randomimport math#元组中存放的是人和其家乡people = [('Seymour','BOS'),('Franny','DA
2013-07-10 20:21:59 2938
原创 【数据挖掘】k-means聚类算法
K-Means聚类 层次聚类给出了一个树作为结果,但是其不足之处:没有额外的工作,树形结构并不能真正将数据划分到独立的分组中,并且算法属于计算密集型任务。因为每个item之间的距离需要计算,且合并之后,距离需要重算,所以当数据集非常大时,算法运行很缓慢。 K-means聚类,不同于层次聚类,它事先告诉有多少个唯一的clust要生成。算法基于数据的结构来决定cluster
2013-07-08 17:40:07 1244
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人