- 博客(53)
- 收藏
- 关注
原创 数据挖掘--相关系数计算
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.List;public class R_compute { List data_x=new ArrayList(); L
2015-03-04 18:22:37 1440
原创 利用python的sklearn开源包进行文本挖掘
从网站抓取训练样本数据,代码:import urllib2from BeautifulSoup import BeautifulSoupimport sysimport reimport timeimport sysreload(sys)sys.setdefaultencoding('utf-8')url=['http://news.baidu.com/n?cmd=4&cla
2015-02-27 16:51:31 6329 5
原创 mapreduce编程:多表关联
package my.hadoopstudy; import java.util.*;import java.io.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apa
2015-02-13 17:39:19 449
转载 mapreduce编程:单表自连接
程序:package my.hadoopstudy; import java.util.*;import java.io.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import or
2015-02-13 15:17:43 495
原创 mapreduce编程:求平均值
求平均值的程序:package my.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job;
2015-02-12 16:08:19 2922 1
原创 mapreduce编程:wordcount
用maven插件编写程序,下载相关依赖:package my.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hado
2015-02-12 14:52:18 298
转载 hadoop的安装与编程环境的配置
hadoop的安装:http://www.cnblogs.com/end/archive/2012/08/13/2636645.htmlmapreduce,用maven,http://blog.csdn.net/kongxx/article/details/42339581
2015-02-12 14:49:06 339
原创 数据挖掘-BP算法实现
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashSet;import java.util.Iterator;import java.util.List;public c
2015-02-05 11:28:08 670
原创 数据挖掘-Knn算法实现
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.List;import jav
2015-02-03 15:46:01 575
原创 数据挖掘-NaiveBeyes算法实现
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.List;import jav
2015-02-02 12:37:12 541
原创 数据挖掘-k-means算法实现
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;public class
2015-01-31 19:36:29 686
转载 数据挖掘--聚类介绍
共有5类:划分法、层次法、密度法、网格法、模型法1、划分法划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K(1) 每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初
2015-01-31 16:44:26 1950
原创 数据挖掘--pagerank算法实现
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;public class PageRank { public in
2015-01-31 15:29:40 464
原创 数据挖掘--逻辑斯蒂回归的java实现(求最优点的方法用是梯度下降法)
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.List;public class Logistic { float[] Tag; float[][] Var;
2015-01-29 16:10:39 1993 1
原创 数据挖掘--Cart算法的实现
import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import
2015-01-28 11:59:41 767
原创 数据挖掘--apriori算法实现
import java.io.BufferedReader;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.Arrays;import java.util.HashSet;import j
2015-01-26 19:07:23 482
转载 数据挖掘:FP增长
FP-Tree算法FPTree算法:在不生成候选项的情况下,完成Apriori算法的功能。FPTree算法的基本数据结构,包含一个一棵FP树和一个项头表,每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序,在FPTree中高支持度的节点只能是低支持度节点的祖先节点。另外还要交代一下FPTree算法中几个基本的概念:FP-Tre
2015-01-23 16:34:17 1239
转载 数据挖掘:Apriori算法
转自: http://blog.csdn.net/zjd950131/article/details/80714141 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能
2015-01-23 14:47:59 498
原创 MapReduce:基于物品的协同过滤算法的MapReduce实现
基于用户的相似性函数的定义:import java.io.IOException; import java.util.ArrayList;import java.util.Iterator; import java.util.List; public class MapReduce0 extends MapperReduce{ public
2015-01-22 14:43:03 818
原创 数据挖掘--协同过滤算法,基于集合交集相似性计算的mapreduce算法设计
第一个过程程的mapreduce函数:import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.uti
2015-01-21 14:58:23 792
原创 hadoop-java:表与表的左连接
程序如下:import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;impor
2015-01-21 12:29:25 353
原创 hadoop-python:计算平均值分布式程序编写
程序:mapper.pyimport sys for line in sys.stdin: line = line.strip() words = line.split() print '%s\t%s' % (words[0],words[1]) reducer.pyimport sys count=0i=0sum=0fo
2015-01-19 21:07:27 920
原创 hadoop-java:计算平均值分布式程序编写
import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;public class MapReduce extends MapperReduce{ public MapReduce(){ super(); } //map函数开始 public void M
2015-01-19 19:48:15 1320
原创 hadoop-java——MapReduce编程框架的设计
最近想到一个问题,能不能不搭建hadoop就可以练习MapReduce编程呢?经过几天学习了解了hadoop上MapReduce的处理过程,于是就用java设计了这么一个MapReduce编程框架的设计,它是一个java类,不能进行分布式计算,但模拟MapReduce处理过程,你可以在这个框架上编写mapper函数和reducer函数,编写的格式与在hadoop上编写的要求相同。。。编写这个框架的
2015-01-16 21:53:57 555
原创 数据挖掘(Python)——利用sklearn进行数据挖掘,实现算法:svm、knn、C5.0、NaiveBayes
数据格式:dataimport xlrdimport stringimport sklearnfrom sklearn import svmfrom sklearn import neighborsfrom sklearn import clusterfrom sklearn import treefrom sklearn import naive_bayes import nu
2015-01-15 00:26:35 5152 3
转载 MapReduce研究(转载)
MapReduce研究报告 1 MapReduce简介在过去的数年里,Google的许多员工实现了很多基于特殊应用的计算,用来处理海量的原始数据,比如文档爬虫、Web请求日志等。为了计算各种类型的数据,比如倒排索引,Web文档的图结构的各种表示,每天被请求数量最多的搜索集合等等。这样的计算在概念上很容易理解,但是,输入的数据量极大,只有计算被分布在成百上千的机器上才能在可
2015-01-14 19:11:58 397
转载 mapreduce框架详解 (转载)
转自:http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正
2015-01-14 19:09:26 292
转载 Python笔记——类与继承
1、类的初始化函数:格式为 def __init__(self,参数列表):2、类中函数的定义:格式为 def 函数名(self,参数列表):3、类的成员变量:局部成员变量:self.变量class time: def __init__(self,time): self.time=time def printtime(se
2015-01-14 15:22:04 292
翻译 Python笔记——函数的用法
1、判断函数是否可用:callable(f)>>> callable(f)False2、改变函数参数(注意是不可变的数据结构:如 字符串、数字、元组),并不会改变外部变量值,这时函数参数只在函数内有效def y(i): i=1 return i # return 可以没有>>> i=10>>> y(i)1>>> i10>
2015-01-14 12:49:48 331
原创 Python笔记——流程语句
python的比较运算符:x==y :是否相等x>y :大小比较x!=y :是否不等x is y :是否同一个对象x is not y :是否不是同一个对象x in y :x是否在y序列中x not in y : x是否不再y序列中if语句的使用:x=[1,2,3,4,5,6]y=xif x is y: pri
2015-01-13 18:48:26 369
原创 Python笔记——字典的用法
字典是一个具有映射关系的数据类型,每一个健值映射一个值,健值是唯一的,值可以不唯一定义空字典:{ }1、字典创建:方法1:直接创建>>> namebook={'name':'abc','age':26,'school':'huanong'}>>> namebook['name']'abc'方法2:使用dict函数创建>>> items=[(1,'a'),
2015-01-13 15:56:35 378
原创 Python笔记——字符串的用法
字符串:1、字符串不可变>>> a'this is a test'>>> a[0:3]'thi'>>> a[0]='1'Traceback (most recent call last): File "", line 1, in a[0]='1'TypeError: 'str' object does not support item as
2015-01-13 12:30:08 397
原创 Python笔记——列表与元组的用法
python有六种内建序列,分别是列表、元组、字符串、unicode字符串、buffer对象和xrange对象序列的通用操作:1、索引:>>> a['a', 'df', 'bcd', 'ghijk']>>> a[0]'a'>>> a="fdas">>> a[2]'a'>>> 2、分片:>>> a'this is a pytho
2015-01-13 10:37:30 412
原创 Java笔记——字符文本操作:file、filewriter、filereader
package tmp;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.Scanner;//知识点:1、字符串容器stringbuilder的常用方法有append、delete、insert、tos
2015-01-12 19:56:32 363
原创 Java笔记——异常处理
//知识点:1、局部变量的作用范围只在它的{}内;2、try-catch-finally的用法;3、在一个成员方法中使用throws抛出异常,调用该方法失败是将返回异常;//4、throw自定义异常,用法通常与if一起使用,当方法中遇到该语句时,将停止向下执行.package tmp;public class Error_Pro { static int i; public s
2015-01-10 16:32:18 251
原创 Java笔记——迭代器
package tmp;import java.util.Collections;import java.util.Iterator;import java.util.LinkedList;import java.util.List;public class List_tmp { public static void main(String[] args){ List
2015-01-10 14:08:48 303
原创 Java笔记——集合类:Map的使用
java的集合类中,一般情况用链表定义列表,即linkedlist . 而对于set和map使用hash进行定义,即为HashSet,HashMap定义. package tmp;import java.util.Collection;import java.util.HashMap;import java.util.HashSet;import java.util.Iterato
2015-01-09 22:17:37 242
原创 Java笔记——集合类:set用法
类List_test的定义在上一篇文章,但略有变化,因为要重写父类的构造方法,因此必须在父类中增加一个无参数无操作的构造方法;package tmp;import java.util.HashSet;import java.util.Iterator;import java.util.LinkedList;import java.util.ListIterator;import jav
2015-01-09 21:06:06 403
原创 Java笔记——集合类:List的用法
package tmp;import java.util.LinkedList;import java.util.ListIterator;public class List_test { private int num; public List_test(int k){ num=k; } public static void main(String[] args) {
2015-01-09 20:15:34 268
原创 Java笔记——内部成员类的继承
文件一:package tmp;public class InnerClass_test { private String name; public static int score=-1; private String get_name(){ return name; } public void set_name(String name){ this.name=name
2015-01-09 18:21:36 277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人