aozhi2239-CSDN博客

转载使用MapReduce实现温度排序

温度排序代码，具体说明可以搜索其他博客KeyPair.javapackage temperaturesort;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import jav...

2018-03-29 16:20:00 320

转载使用MapReduce实现二度人脉搜索算法

一，背景介绍在新浪微博、人人网等社交网站上，为了使用户在网络上认识更多的朋友，社交网站往往提供类似“你可能感兴趣的人”、“间接关注推荐”等好友推荐的功能，其中就包含了二度人脉算法。二，算法实现原始数据集测试：a bb ca cb dc ee ce f数据集说明：为关注关系，即a关注b...

2018-03-29 15:59:00 540

转载 win下idea远程提交WordCount任务到HA集群

一，环境配置1，修改win下的host文件：即C:\Windows\System32\drivers\etc\host中添加集群中机子的ip2，win下hadoop，并为win的环境变量配置hadoop_home，添加winutils.exe放到$HADOOP_HOME/bin下3，使用idea新建maven项目，其中pom.xml设置如下：<?xml vers...

2018-03-29 15:39:00 187

转载数据结构排序总结

数据结构排序总结排序概念：1，排序要素：稳定性（相同关键字时，相对顺序是否发生变化），时间复杂度，空间复杂度：2，排序分类：内部排序（内排序适用于记录个数不很多的小文件，计算在内存中），外部排序（外排序则适用于记录个数太多，不能一次将其全部记录放人内存的大文件）内部排序：1，插入排序插入排序(Insertion Sort)的基本思想是：每次将一个待排序的记录，按其...

2017-10-24 21:27:00 110

转载数据结构基本知识点总结

1，数据结构三要素：　　1，逻辑结构：线性和非线性　　2，存储结构：顺序，链式，索引，散列　　3，数据运算：算法　　具体时间复杂度与问题的规模和初始条件相关，分最佳和最大2，线性表：无头结点:　　头插法：s->data=ch;s->next=head;head=s;　　尾插法：rear->next=s;rear=s; (两个指针头尾指针）　　删除：q...

2017-09-23 20:28:00 532

转载统计学习方法五逻辑回归分类

逻辑回归分类1，概念　　2，算法流程　　　　　　3，多分类逻辑回归　　4，逻辑回归总结　优点：1）预测结果是界于0和1之间的概率；2）可以适用于连续性和类别性自变量；3）容易使用和解释；缺点：1）对模型中自变量多重共线性较为敏感，例如两个高度相关自变量同时放入模型，可能导致较弱的一个自变量回归符号不符合预期，符号被扭转。需要利用因...

2017-09-03 16:47:00 113

转载统计学习方法五决策树分类

决策树分类1，概念　　　　　　　　2，决策树算法2.1，特征选择：　　熵：值越大，不确定性因素越大；条件熵：即已知x存在的情况下求y的不确定性（越小越好）；信息增益（互信息）：熵减去条件熵（度量了X在知道Y以后不确定性减少程度），越大越好；　　　　　　　　　　　　　　　　　　　　　　　2.2，决策树生成算法1，ID3算法　　　　...

2017-09-02 21:59:00 88

转载统计学习方法四朴素贝叶斯分类

朴素贝叶斯分类1，基本概念　　　　2，算法流程　　　关键点：理解先验概率，条件概率，最大后验概率，下面是以极大似然估计的　　　　　　3，算法改进（贝叶斯估计）　　　上述用极大似然估计可能会出现所要估计的概率值为0的情况，改进方法:　　先验概率贝叶斯估计：K表示类别数，λ为参数：0时为极大似然估计；1时为拉普拉斯平滑　　　　　　条件概率贝叶斯...

2017-09-02 19:51:00 121

转载 Java小案例-（逃离迷宫）

Java小案例-（逃离迷宫）一，迷宫需求描述：1，用户输入迷宫图（限制方形）：字母1位墙，0为通，e为出口，m为入口，*为已访问的位置，用外围1围住迷宫2，运行轨迹右，左，下，上3，判断该迷宫是否能从入口走到出口，并将搜索过程输出二，迷宫实现：1，迷宫元素类MazeCell：package smalldemo.maze; class MazeCel...

2017-08-19 22:43:00 280

转载 Java小案例（行星移动）

Java小案例行星移动：参考：三百集使用软件：idea2017，java1,图片集：这里（idea图片源放在target目录下，才能访问到），建议从小往上看。。。2，定义MyFramepackage my.university;import java.awt.*;import java.awt.event.WindowAdapter;imp...

2017-08-12 22:46:00 158

转载 HA分布式集群配置三 spark集群配置

（一）HA下配置spark1，spark版本型号：spark-2.1.0-bin-hadoop2.72，解压，修改配置环境变量tar -zxvf spark-2.1.0-bin-hadoop2.7.tgzmv spark-2.1.0-bin-hadoop2.7 /usr/spark-2.1.0vim /etc/profileexport JAVA_HOME...

2017-08-06 19:01:00 93

转载 HA分布式集群二hive配置

一，概念hive:是一种数据仓库，数据储存在：hdfs上，hsql是由替换简单的map-reduce，hive通过mysql来记录映射数据二，安装　1，mysql安装：　　1，检测是否有mariadbrpm -qa|grep mariadbtar -zxvf mysql-5.7.18-linux-glibc2.5-x86_64.tar.gz存在：rpm ...

2017-08-02 18:59:00 92

转载 HA分布式集群一hadoop+zookeeper

一：HA分布式配置的优势：　　1，防止由于一台namenode挂掉，集群失败的情形　　2，适合工业生产的需求二：HA安装步骤：1，安装虚拟机　1，型号：VMware_workstation_full_12.5.0.11529.exe　　linux镜像：CentOS-7-x86_64-DVD-1611.iso　　注意点：　　1，网络选择了桥接模式（可以防止rou...

2017-08-02 18:59:00 111

转载 win下写任务提交给集群

一，复制和删除hdfs中的文件import org.apache.hadoop.fs.{FileSystem, Path}import org.apache.spark.{SparkConf, SparkContext}import org.apache.log4j.{Level, Logger}/** * Created by Administrator on...

2017-07-25 16:20:00 110

转载 win10下将spark的程序提交给远程集群中运行

一，开发环境：　操作系统：win19 64位 IDE：IntelliJ IDEA JDK：1.8scala:scala-2.10.6 集群：linux上cdh集群，其中spark为1.5.2,hadoop:2.6.0（其实我也想用spark最新版和hadoop的最新版，但1.6以前有spark-assembly-1.x.x-hadoo...

2017-07-18 10:54:00 389

转载 Scala快学笔记（三）

一，文件操作：1，读取行：val source=Source.fromFile("fileName","utf-8) 形成一个字符串：source.mkString 从网络中读取：val source=Source.fromURL("http://www.baidu.com","utf-8")2，读取二进制文件，写入文本文件，访问目录都需要引入java.文件处理方法3...

2017-07-10 21:07:00 62

转载 Scala快学笔记（二）

一，基本概念1，映射 Map与HashMap与TreeMap，SotredMap等区别：1、HashMap键无序，它根据键的HashCode值存储数据,根据键可以直接获取它的值，具有很快的访问速度，在Map 中插入、删除和定位元素，HashMap 是最好的选择；2、LinkedHashMap 是HashMap的一个子类，键保存了插入的顺序，使用Iterator遍历时，得...

2017-07-09 21:50:00 58

转载 Scala快学笔记（一）

一，基本概念：1，Scala是一种基于JVM的面向对象和函数式编程语言2，基本类型：数值类型 -》：Byte,Short,Int,Long,Float,Double和布尔类型：Boolean和字符类型：CharJava基本数据类型总结小数如何转为十进制精度转换造成精度损失question：用BigInt计算2的2017次方（BigInt(2).pow(10...

2017-07-08 10:41:00 52

转载统计学习方法三 kNN

KNN(一）KNN概念：　　K近邻算法是一种回归和分类算法，这主要讨论其分类概念：　　K近邻模型三要素：1，距离：　　　　　　　　　　　　2，K值的选择：　　　　K值选择过小：模型过复杂，近似误差减小，估计误差上升，出现过拟合　　　　K值选择过大：模型过于简单，预测能力弱　　　　K值的选择：可以通过交叉验证来确定，k一般取一个较小的值3，分类决...

2017-07-03 09:09:00 62

转载统计学习方法二感知机

感知机（一）概念　　　　　　　　1，定义：　　　　　　　　（二），学习策略1，线性可分：存在一个超平面将正实例和负实例划分开来，反之不可分2，学习策略：寻找极小损失函数，通过计算误分点到超平面的距离　　　　　　　　　　3，学习算法即求解损失函数最优化的算法，借用随机梯度下降法3.1 原始形式学习率也叫步长（0,1]　　　　　　　　　　...

2017-06-30 23:24:00 89

转载统计学习方法（一）概念

统计学习方法概论：（一），统计学习1，统计学习的特点　　2，统计学习的对象　　3，统计学习的目的　　4，统计学习的方法（重点：模型的集合，策略（模型的选择），算法（模型的实现调优））　　（二），监督学习重要概念1，输入空间，特征向量空间，输出空间，预测问题分为（回归问题（输出为连续即可），分类问题，标注问题）　　（三），统计学习三要...

2017-06-30 21:47:00 81

转载 python学习心得（三）

一，面向对象编程1，类和实例,class Student(object):#括号里面的是继承的类 def __init__(self, name, score):初始化对象时，参数个数 self.name = name self.score = score def print_score(self): ...

2017-06-19 15:22:00 86

转载 python学习心得

一，高级特性：1，切片：[start:stop:step]>>>l=range(6)>>>l[3,-1,2]resulte is [3]2,迭代　　2.1按itervalues()>>> d={1:2,2:3,3:4}>>> for k in d:... pri...

2017-06-16 21:16:00 46

转载 Python学习：基本概念

Python学习：基本概念一，python的特点：1，python应用场景多;爬虫，网站，数据挖掘，可视化演示。2，python运行速度慢，但如果CPU够强，这差距并不明显。3,严格的缩进式编程二，python输入1，print 'hello world'，‘Dr’　(中文：# -*- coding: utf-8 -*-申明）2,raw_input('inpu...

2017-06-15 11:19:00 67

转载 Python学习（一）

Python学习（一）一：开发工具安装　　1,pycharm下载：Linux版本　　2，破解：在help-register下-service输入：　　　　http://elporfirio.com:1017/或http://idea.imsxm.com/ 二：常用插件下载及安装：　　1，下载安装pip　　　wget...

2017-05-30 21:28:00 83

转载 SparkMLlib聚类学习之KMeans聚类

SparkMLlib聚类学习之KMeans聚类（一），KMeans聚类k均值算法的计算过程非常直观： 1、从D中随机取k个元素，作为k个簇的各自的中心。 2、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇。 3、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。...

2017-05-25 20:40:00 466

转载 SparkMLlib回归算法之决策树

SparkMLlib回归算法之决策树（一），决策树概念1，决策树算法（ID3，C4.5 ，CART）之间的比较：　　1，ID3算法在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。　　2　ID3算法只能对描述属性为离散型属性的数据集构造决策树，其余两种算法对离散和连...

2017-05-24 16:24:00 121

转载 SparkMLlib学习之线性回归

SparkMLlib学习之线性回归（一）回归的概念　　1，回归与分类的区别　　　分类模型处理表示类别的离散变量，而回归模型则处理可以取任意实数的目标变量。但是二者基本的原则类似，都是通过确定一个模型，将输入特征映射到预测的输出。回归模型和分类模型都是监督学习的一种形式。　　2.回归分类　　　线性回归模型：本质上和对应的线性分类模型一样，唯一的区别是线性回归使用的损失函...

2017-05-23 20:37:00 69

转载 SparkMLlib分类算法之决策树学习

SparkMLlib分类算法之决策树学习（一）决策树的基本概念　　　　决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象...

2017-05-21 11:32:00 137

转载 SparkMLlib分类算法之支持向量机

SparkMLlib分类算法之支持向量机（一），概念　　支持向量机(support vector machine)是一种分类算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最...

2017-05-20 17:15:00 360

转载 SparkMLlib分类算法之逻辑回归算法

SparkMLlib分类算法之逻辑回归算法（一），逻辑回归算法的概念（参考网址：http://blog.csdn.net/sinat_33761963/article/details/51693836）　　　　逻辑回归与线性回归类似，但它不属于回归分析家族（主要为二分类），而属于分类家族，差异主要在于变量不同，因此其解法与生成曲线也不尽相同。逻辑回归是无监督学习的一个重要算法，对...

2017-05-20 16:18:00 155

转载 SparkMLib分类算法之朴素贝叶斯分类

SparkMLib分类算法之朴素贝叶斯分类　　　　（一）朴素贝叶斯分类理解　　　　　　　　朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说，朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。举个例子，如果一种水果具有红，圆，直径大概4英寸等特征，该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定，然而朴素贝叶斯分类器认为这些属性在判定该水...

2017-05-19 21:50:00 137

转载 SparkMLlib基础内容

SparkMLlib基础内容　　　　（一），多种数据类型　　　　　　　　　　　　　　　　1.1 本地向量集　　　　　　　　def testVetor: Unit ={ val vd:Vector=Vectors.dense(2,3,6) println(vd(2))//输出结果为6,稠密型数据集下标从0开始依次递增 val vr:Ve...

2017-05-19 09:43:00 90

转载编译spark源码及塔建源码阅读环境

编译spark源码及塔建源码阅读环境　　（一），编译spark源码　　　　1，更换maven的下载镜像：　<mirrors>  <mirror> <id>alimaven</id> <mi...

2017-05-12 16:33:00 93

转载 Spark机器学习之协同过滤算法

Spark机器学习之协同过滤算法　　　　一）、协同过滤　　　　　　1.1 概念　　　　　　　　　　　　　　　协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义　　　　　　　1.2 分类　　　　　　　　　1.在基于用户的方法的中，如果两个用户表现出相似的偏好（即对相同物品的偏好大体相同），那就认...

2017-05-04 16:56:00 154

转载 Java 学习之网络编程案例

网络编程案例一，概念1，网络编程不等于网站编程2，编程只和传输层打交道，即TCP和UDP两个协议二，案例1，TCP实现点对点的聊天Server端：两个输入流：读客户端和控制台，一个输出端：输出客户端public class ChatServer { public static void main(String[] args) { ...

2017-04-27 17:14:00 85

转载 java学习之网络编程

学习Java的同学注意了！！！转载自http://m.blog.csdn.net/article/details?id=55805012本文主要是自己在网络编程方面的学习总结，先主要介绍计算机网络方面的相关内容，包括计算机网络基础，OSI参考模型，TCP/IP协议簇，常见的网络协议等等，在此基础上，介绍Java中的网络编程。一、概述二、计...

2017-04-27 10:17:00 42

转载 Java学习之多线程

多线程：（一）进程与线程进程特点并发与并行的区别：　　　　　　　多线程编程的好处：　　　　　　（二）多线程的建立1，通过继承Thread类，代码如下：class MyThread extends Thread { private static int...

2017-04-27 09:31:00 44

转载 java学习之输入，输出流

输入流与输出流1,流的分类：字节流和字符流区别如下：1，字节流（8位Unicode）在操作的时候本身是不会用到缓冲区（内存）的byte，是与文件本身直接操作的，而字符流(16位Unicode)在操作的时候是使用到缓冲区的char2，字节流在操作文件时，即使不关闭资源（close方法），文件也能输出，但是如果字符流不使用close方法的话，则不会输出任何内容，说明字符流用的是...

2017-04-25 16:58:00 71

转载数据结构-----链表的实现

单链表　　　　1，链表存储特点　　　　　　① 用一组任意的存储单元来存放线性表的结点（这组存储单元既可以是连续的，也可以是不连续的）　　　　　　② 链表中结点的逻辑次序和物理次序不一定相同。　　　　2，线性表的单链表存储结构如：　　　　3，链表建立方法（时间复杂度为O（n））　　　　　　头插入法：s->data=d;s->next=head;head=...

2017-04-24 22:11:00 59

空空如也

空空如也