2013年07月_冰火两重天

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创核方法和支持向量机

#!/usr/bin/python#核方法和支持向量机class matchrow(): # def __init__(self,row,allnum=False): if allnum: self.data=[float(row[i] for i in range(len(row) - 1))] else:

2013-07-30 12:31:35 1826

原创【数据挖掘】代价模型

贝叶斯分类、决策树、和向量机对于基于多个不同因素的数值数据做预测，并不是最好的。构建数据集#!/usr/bin/pythonfrom random import random,randintimport math#构建数据集，酒的等级越高，其实价格越高，增加其价格直到peak age#而酒等级越低，其实价格便宜，且变得越便宜#生成就得价格def wineprice(rating

2013-07-26 09:05:44 1539 1

原创在Hive中添加函数

添加永久函数 1）在hive客户端机的安装目录下修改hive-env.sh中的：export HIVE_AUX_JARS_PATH=“hive udf jar目录” 2）在安装目录下添加hive-function.properties文件文件内容为函数名与类名的映射关系 domain=*.hive.udf.UD

2013-07-24 17:58:25 1370

原创【数据挖掘】决策树之CART (Classification and Regression Trees)分类与回归树

决策树是一种简单的机器学习方法，它是完全透明的分类观测方法，经过训练后由一系列if-then判断语句组成一棵树。#!/usr/bin/pythonmy_data=[['slashdot','USA','yes',18,'None'], ['google','France','yes',23,'Premium'], ['digg','USA','yes',24,

2013-07-24 09:48:53 3166

原创【数据挖掘】文档分类之朴素贝叶斯算法

#!/usr/bin/pythonimport reimport mathdef getwords(doc): splitter=re.compile('\\W*') # Split the words by non-alpha characters words=[s.lower() for s in splitter.split(doc) if len(s)

2013-07-21 21:42:25 1217

原创【数据挖掘】最优化算法入门

optimization用来解决以下问题：有多个变量协作，多种可能方法，输出很大程度上依赖各种变量的协作。预测：通过尝试多种不同方法，并为它们打分来决定其效果。#!/usr/bin/pythonimport timeimport randomimport math#元组中存放的是人和其家乡people = [('Seymour','BOS'),('Franny','DA

2013-07-10 20:21:59 2938

原创【数据挖掘】k-means聚类算法

K-Means聚类层次聚类给出了一个树作为结果，但是其不足之处：没有额外的工作，树形结构并不能真正将数据划分到独立的分组中，并且算法属于计算密集型任务。因为每个item之间的距离需要计算，且合并之后，距离需要重算，所以当数据集非常大时，算法运行很缓慢。 K-means聚类，不同于层次聚类，它事先告诉有多少个唯一的clust要生成。算法基于数据的结构来决定cluster

2013-07-08 17:40:07 1244

Beginning Lua Programming

Beginning Lua Programming,nginx中使用lua扩展nginx功能非常便捷

2014-06-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人