pat_datamine-CSDN博客

原创数据挖掘--相关系数计算

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.List;public class R_compute { List data_x=new ArrayList(); L

2015-03-04 18:22:37 1416

原创利用python的sklearn开源包进行文本挖掘

从网站抓取训练样本数据，代码：import urllib2from BeautifulSoup import BeautifulSoupimport sysimport reimport timeimport sysreload(sys)sys.setdefaultencoding('utf-8')url=['http://news.baidu.com/n?cmd=4&cla

2015-02-27 16:51:31 6304 5

原创 mapreduce编程：多表关联

package my.hadoopstudy; import java.util.*;import java.io.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apa

2015-02-13 17:39:19 442

转载 mapreduce编程：单表自连接

程序：package my.hadoopstudy; import java.util.*;import java.io.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import or

2015-02-13 15:17:43 489

原创 mapreduce编程：求平均值

求平均值的程序：package my.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job;

2015-02-12 16:08:19 2903 1

原创 mapreduce编程:wordcount

用maven插件编写程序，下载相关依赖：package my.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hado

2015-02-12 14:52:18 295

转载 hadoop的安装与编程环境的配置

hadoop的安装：http://www.cnblogs.com/end/archive/2012/08/13/2636645.htmlmapreduce，用maven，http://blog.csdn.net/kongxx/article/details/42339581

2015-02-12 14:49:06 336

原创数据挖掘-BP算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashSet;import java.util.Iterator;import java.util.List;public c

2015-02-05 11:28:08 664

原创数据挖掘-Knn算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.List;import jav

2015-02-03 15:46:01 570

原创数据挖掘-NaiveBeyes算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.List;import jav

2015-02-02 12:37:12 535

原创数据挖掘-k-means算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;public class

2015-01-31 19:36:29 678

转载数据挖掘--聚类介绍

共有5类：划分法、层次法、密度法、网格法、模型法1、划分法划分法(partitioning methods)，给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K（1）每一个分组至少包含一个数据纪录；（2）每一个数据纪录属于且仅属于一个分组（注意：这个要求在某些模糊聚类算法中可以放宽）；对于给定的K，算法首先给出一个初

2015-01-31 16:44:26 1937

原创数据挖掘--pagerank算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;public class PageRank { public in

2015-01-31 15:29:40 462

原创数据挖掘--逻辑斯蒂回归的java实现（求最优点的方法用是梯度下降法）

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.List;public class Logistic { float[] Tag; float[][] Var;

2015-01-29 16:10:39 1973 1

原创数据挖掘--Cart算法的实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import

2015-01-28 11:59:41 746

原创数据挖掘--apriori算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.Arrays;import java.util.HashSet;import j

2015-01-26 19:07:23 474

转载数据挖掘：FP增长

FP-Tree算法FPTree算法：在不生成候选项的情况下，完成Apriori算法的功能。FPTree算法的基本数据结构，包含一个一棵FP树和一个项头表，每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序，在FPTree中高支持度的节点只能是低支持度节点的祖先节点。另外还要交代一下FPTree算法中几个基本的概念：FP-Tre

2015-01-23 16:34:17 1234

转载数据挖掘：Apriori算法

转自： http://blog.csdn.net/zjd950131/article/details/80714141 Apriori介绍Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能

2015-01-23 14:47:59 489

原创 MapReduce：基于物品的协同过滤算法的MapReduce实现

基于用户的相似性函数的定义：import java.io.IOException; import java.util.ArrayList;import java.util.Iterator; import java.util.List; public class MapReduce0 extends MapperReduce{ public

2015-01-22 14:43:03 751

原创数据挖掘--协同过滤算法，基于集合交集相似性计算的mapreduce算法设计

第一个过程程的mapreduce函数：import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.uti

2015-01-21 14:58:23 752

原创 hadoop-java：表与表的左连接

程序如下：import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;impor

2015-01-21 12:29:25 345

原创 hadoop-python：计算平均值分布式程序编写

程序：mapper.pyimport sys for line in sys.stdin: line = line.strip() words = line.split() print '%s\t%s' % (words[0],words[1]) reducer.pyimport sys count=0i=0sum=0fo

2015-01-19 21:07:27 901

原创 hadoop-java：计算平均值分布式程序编写

import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;public class MapReduce extends MapperReduce{ public MapReduce(){ super(); } //map函数开始 public void M

2015-01-19 19:48:15 1313

原创 hadoop-java——MapReduce编程框架的设计

最近想到一个问题，能不能不搭建hadoop就可以练习MapReduce编程呢？经过几天学习了解了hadoop上MapReduce的处理过程，于是就用java设计了这么一个MapReduce编程框架的设计，它是一个java类，不能进行分布式计算，但模拟MapReduce处理过程，你可以在这个框架上编写mapper函数和reducer函数，编写的格式与在hadoop上编写的要求相同。。。编写这个框架的

2015-01-16 21:53:57 549

原创数据挖掘（Python）——利用sklearn进行数据挖掘，实现算法：svm、knn、C5.0、NaiveBayes

数据格式：dataimport xlrdimport stringimport sklearnfrom sklearn import svmfrom sklearn import neighborsfrom sklearn import clusterfrom sklearn import treefrom sklearn import naive_bayes import nu

2015-01-15 00:26:35 5132 3

转载 MapReduce研究(转载）

MapReduce研究报告 1 MapReduce简介在过去的数年里，Google的许多员工实现了很多基于特殊应用的计算，用来处理海量的原始数据，比如文档爬虫、Web请求日志等。为了计算各种类型的数据，比如倒排索引，Web文档的图结构的各种表示，每天被请求数量最多的搜索集合等等。这样的计算在概念上很容易理解，但是，输入的数据量极大，只有计算被分布在成百上千的机器上才能在可

2015-01-14 19:11:58 390

转载 mapreduce框架详解（转载）

转自：http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正

2015-01-14 19:09:26 285

转载 Python笔记——类与继承

1、类的初始化函数：格式为 def __init__(self,参数列表):2、类中函数的定义：格式为 def 函数名(self,参数列表):3、类的成员变量：局部成员变量：self.变量class time: def __init__(self,time): self.time=time def printtime(se

2015-01-14 15:22:04 284

翻译 Python笔记——函数的用法

1、判断函数是否可用：callable(f)>>> callable(f)False2、改变函数参数（注意是不可变的数据结构：如字符串、数字、元组），并不会改变外部变量值，这时函数参数只在函数内有效def y(i): i=1 return i # return 可以没有>>> i=10>>> y(i)1>>> i10>

2015-01-14 12:49:48 323

原创 Python笔记——流程语句

python的比较运算符：x==y ：是否相等x>y ：大小比较x!=y ：是否不等x is y ：是否同一个对象x is not y ：是否不是同一个对象x in y ：x是否在y序列中x not in y ： x是否不再y序列中if语句的使用：x=[1,2,3,4,5,6]y=xif x is y: pri

2015-01-13 18:48:26 361

原创 Python笔记——字典的用法

字典是一个具有映射关系的数据类型，每一个健值映射一个值，健值是唯一的，值可以不唯一定义空字典：{ }1、字典创建：方法1：直接创建>>> namebook={'name':'abc','age':26,'school':'huanong'}>>> namebook['name']'abc'方法2：使用dict函数创建>>> items=[(1,'a'),

2015-01-13 15:56:35 350

原创 Python笔记——字符串的用法

字符串：1、字符串不可变>>> a'this is a test'>>> a[0:3]'thi'>>> a[0]='1'Traceback (most recent call last): File "", line 1, in a[0]='1'TypeError: 'str' object does not support item as

2015-01-13 12:30:08 387

原创 Python笔记——列表与元组的用法

python有六种内建序列，分别是列表、元组、字符串、unicode字符串、buffer对象和xrange对象序列的通用操作：1、索引：>>> a['a', 'df', 'bcd', 'ghijk']>>> a[0]'a'>>> a="fdas">>> a[2]'a'>>> 2、分片：>>> a'this is a pytho

2015-01-13 10:37:30 405

原创 Java笔记——字符文本操作：file、filewriter、filereader

package tmp;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.Scanner;//知识点：1、字符串容器stringbuilder的常用方法有append、delete、insert、tos

2015-01-12 19:56:32 351

原创 Java笔记——异常处理

//知识点：1、局部变量的作用范围只在它的{}内；2、try-catch-finally的用法；3、在一个成员方法中使用throws抛出异常，调用该方法失败是将返回异常；//4、throw自定义异常，用法通常与if一起使用，当方法中遇到该语句时，将停止向下执行.package tmp;public class Error_Pro { static int i; public s

2015-01-10 16:32:18 246

原创 Java笔记——迭代器

package tmp;import java.util.Collections;import java.util.Iterator;import java.util.LinkedList;import java.util.List;public class List_tmp { public static void main(String[] args){ List

2015-01-10 14:08:48 295

原创 Java笔记——集合类：Map的使用

java的集合类中，一般情况用链表定义列表，即linkedlist . 而对于set和map使用hash进行定义，即为HashSet,HashMap定义. package tmp;import java.util.Collection;import java.util.HashMap;import java.util.HashSet;import java.util.Iterato

2015-01-09 22:17:37 234

原创 Java笔记——集合类：set用法

类List_test的定义在上一篇文章，但略有变化，因为要重写父类的构造方法，因此必须在父类中增加一个无参数无操作的构造方法；package tmp;import java.util.HashSet;import java.util.Iterator;import java.util.LinkedList;import java.util.ListIterator;import jav

2015-01-09 21:06:06 393

原创 Java笔记——集合类：List的用法

package tmp;import java.util.LinkedList;import java.util.ListIterator;public class List_test { private int num; public List_test(int k){ num=k; } public static void main(String[] args) {

2015-01-09 20:15:34 262

原创 Java笔记——内部成员类的继承

文件一：package tmp;public class InnerClass_test { private String name; public static int score=-1; private String get_name(){ return name; } public void set_name(String name){ this.name=name

2015-01-09 18:21:36 267

空空如也

空空如也