自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 数据挖掘--相关系数计算

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.List;public class R_compute { List data_x=new ArrayList(); L

2015-03-04 18:22:37 1416

原创 利用python的sklearn开源包进行文本挖掘

从网站抓取训练样本数据,代码:import urllib2from BeautifulSoup import BeautifulSoupimport sysimport reimport timeimport sysreload(sys)sys.setdefaultencoding('utf-8')url=['http://news.baidu.com/n?cmd=4&cla

2015-02-27 16:51:31 6304 5

原创 mapreduce编程:多表关联

package my.hadoopstudy; import java.util.*;import java.io.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apa

2015-02-13 17:39:19 442

转载 mapreduce编程:单表自连接

程序:package my.hadoopstudy; import java.util.*;import java.io.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import or

2015-02-13 15:17:43 489

原创 mapreduce编程:求平均值

求平均值的程序:package my.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job;

2015-02-12 16:08:19 2903 1

原创 mapreduce编程:wordcount

用maven插件编写程序,下载相关依赖:package my.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hado

2015-02-12 14:52:18 295

转载 hadoop的安装与编程环境的配置

hadoop的安装:http://www.cnblogs.com/end/archive/2012/08/13/2636645.htmlmapreduce,用maven,http://blog.csdn.net/kongxx/article/details/42339581

2015-02-12 14:49:06 336

原创 数据挖掘-BP算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashSet;import java.util.Iterator;import java.util.List;public c

2015-02-05 11:28:08 664

原创 数据挖掘-Knn算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.List;import jav

2015-02-03 15:46:01 570

原创 数据挖掘-NaiveBeyes算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.List;import jav

2015-02-02 12:37:12 535

原创 数据挖掘-k-means算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;public class

2015-01-31 19:36:29 678

转载 数据挖掘--聚类介绍

共有5类:划分法、层次法、密度法、网格法、模型法1、划分法划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K(1) 每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初

2015-01-31 16:44:26 1937

原创 数据挖掘--pagerank算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;public class PageRank { public in

2015-01-31 15:29:40 462

原创 数据挖掘--逻辑斯蒂回归的java实现(求最优点的方法用是梯度下降法)

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.List;public class Logistic { float[] Tag; float[][] Var;

2015-01-29 16:10:39 1973 1

原创 数据挖掘--Cart算法的实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import

2015-01-28 11:59:41 746

原创 数据挖掘--apriori算法实现

import java.io.BufferedReader;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.Arrays;import java.util.HashSet;import j

2015-01-26 19:07:23 474

转载 数据挖掘:FP增长

FP-Tree算法FPTree算法:在不生成候选项的情况下,完成Apriori算法的功能。FPTree算法的基本数据结构,包含一个一棵FP树和一个项头表,每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序,在FPTree中高支持度的节点只能是低支持度节点的祖先节点。另外还要交代一下FPTree算法中几个基本的概念:FP-Tre

2015-01-23 16:34:17 1234

转载 数据挖掘:Apriori算法

转自:  http://blog.csdn.net/zjd950131/article/details/80714141 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能

2015-01-23 14:47:59 489

原创 MapReduce:基于物品的协同过滤算法的MapReduce实现

基于用户的相似性函数的定义:import java.io.IOException; import java.util.ArrayList;import java.util.Iterator; import java.util.List; public class MapReduce0 extends MapperReduce{ public

2015-01-22 14:43:03 751

原创 数据挖掘--协同过滤算法,基于集合交集相似性计算的mapreduce算法设计

第一个过程程的mapreduce函数:import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.uti

2015-01-21 14:58:23 752

原创 hadoop-java:表与表的左连接

程序如下:import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;impor

2015-01-21 12:29:25 345

原创 hadoop-python:计算平均值分布式程序编写

程序:mapper.pyimport sys for line in sys.stdin: line = line.strip() words = line.split() print '%s\t%s' % (words[0],words[1]) reducer.pyimport sys count=0i=0sum=0fo

2015-01-19 21:07:27 901

原创 hadoop-java:计算平均值分布式程序编写

import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;public class MapReduce extends MapperReduce{ public MapReduce(){ super(); } //map函数开始 public void M

2015-01-19 19:48:15 1313

原创 hadoop-java——MapReduce编程框架的设计

最近想到一个问题,能不能不搭建hadoop就可以练习MapReduce编程呢?经过几天学习了解了hadoop上MapReduce的处理过程,于是就用java设计了这么一个MapReduce编程框架的设计,它是一个java类,不能进行分布式计算,但模拟MapReduce处理过程,你可以在这个框架上编写mapper函数和reducer函数,编写的格式与在hadoop上编写的要求相同。。。编写这个框架的

2015-01-16 21:53:57 549

原创 数据挖掘(Python)——利用sklearn进行数据挖掘,实现算法:svm、knn、C5.0、NaiveBayes

数据格式:dataimport xlrdimport stringimport sklearnfrom sklearn import svmfrom sklearn import neighborsfrom sklearn import clusterfrom sklearn import treefrom sklearn import naive_bayes import nu

2015-01-15 00:26:35 5132 3

转载 MapReduce研究(转载)

MapReduce研究报告 1      MapReduce简介在过去的数年里,Google的许多员工实现了很多基于特殊应用的计算,用来处理海量的原始数据,比如文档爬虫、Web请求日志等。为了计算各种类型的数据,比如倒排索引,Web文档的图结构的各种表示,每天被请求数量最多的搜索集合等等。这样的计算在概念上很容易理解,但是,输入的数据量极大,只有计算被分布在成百上千的机器上才能在可

2015-01-14 19:11:58 390

转载 mapreduce框架详解 (转载)

转自:http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正

2015-01-14 19:09:26 285

转载 Python笔记——类与继承

1、类的初始化函数:格式为   def  __init__(self,参数列表):2、类中函数的定义:格式为 def 函数名(self,参数列表):3、类的成员变量:局部成员变量:self.变量class time:    def __init__(self,time):        self.time=time    def printtime(se

2015-01-14 15:22:04 284

翻译 Python笔记——函数的用法

1、判断函数是否可用:callable(f)>>> callable(f)False2、改变函数参数(注意是不可变的数据结构:如 字符串、数字、元组),并不会改变外部变量值,这时函数参数只在函数内有效def y(i):    i=1    return i  # return 可以没有>>> i=10>>> y(i)1>>> i10>

2015-01-14 12:49:48 323

原创 Python笔记——流程语句

python的比较运算符:x==y  :是否相等x>y   :大小比较x!=y  :是否不等x is y  :是否同一个对象x is not y  :是否不是同一个对象x in y   :x是否在y序列中x not in y  : x是否不再y序列中if语句的使用:x=[1,2,3,4,5,6]y=xif x is y:    pri

2015-01-13 18:48:26 361

原创 Python笔记——字典的用法

字典是一个具有映射关系的数据类型,每一个健值映射一个值,健值是唯一的,值可以不唯一定义空字典:{ }1、字典创建:方法1:直接创建>>> namebook={'name':'abc','age':26,'school':'huanong'}>>> namebook['name']'abc'方法2:使用dict函数创建>>> items=[(1,'a'),

2015-01-13 15:56:35 350

原创 Python笔记——字符串的用法

字符串:1、字符串不可变>>> a'this is a test'>>> a[0:3]'thi'>>> a[0]='1'Traceback (most recent call last):  File "", line 1, in     a[0]='1'TypeError: 'str' object does not support item as

2015-01-13 12:30:08 387

原创 Python笔记——列表与元组的用法

python有六种内建序列,分别是列表、元组、字符串、unicode字符串、buffer对象和xrange对象序列的通用操作:1、索引:>>> a['a', 'df', 'bcd', 'ghijk']>>> a[0]'a'>>> a="fdas">>> a[2]'a'>>> 2、分片:>>> a'this is a pytho

2015-01-13 10:37:30 405

原创 Java笔记——字符文本操作:file、filewriter、filereader

package tmp;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.Scanner;//知识点:1、字符串容器stringbuilder的常用方法有append、delete、insert、tos

2015-01-12 19:56:32 351

原创 Java笔记——异常处理

//知识点:1、局部变量的作用范围只在它的{}内;2、try-catch-finally的用法;3、在一个成员方法中使用throws抛出异常,调用该方法失败是将返回异常;//4、throw自定义异常,用法通常与if一起使用,当方法中遇到该语句时,将停止向下执行.package tmp;public class Error_Pro { static int i; public s

2015-01-10 16:32:18 246

原创 Java笔记——迭代器

package tmp;import java.util.Collections;import java.util.Iterator;import java.util.LinkedList;import java.util.List;public class List_tmp { public static void main(String[] args){ List

2015-01-10 14:08:48 295

原创 Java笔记——集合类:Map的使用

java的集合类中,一般情况用链表定义列表,即linkedlist .  而对于set和map使用hash进行定义,即为HashSet,HashMap定义. package tmp;import java.util.Collection;import java.util.HashMap;import java.util.HashSet;import java.util.Iterato

2015-01-09 22:17:37 234

原创 Java笔记——集合类:set用法

类List_test的定义在上一篇文章,但略有变化,因为要重写父类的构造方法,因此必须在父类中增加一个无参数无操作的构造方法;package tmp;import java.util.HashSet;import java.util.Iterator;import java.util.LinkedList;import java.util.ListIterator;import jav

2015-01-09 21:06:06 393

原创 Java笔记——集合类:List的用法

package tmp;import java.util.LinkedList;import java.util.ListIterator;public class List_test { private int num; public List_test(int k){ num=k; } public static void main(String[] args) {

2015-01-09 20:15:34 262

原创 Java笔记——内部成员类的继承

文件一:package tmp;public class InnerClass_test { private String name; public static int score=-1; private String get_name(){ return name; } public void set_name(String name){ this.name=name

2015-01-09 18:21:36 267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除