灯火阑珊不知处-CSDN博客

原创 Mapredce应用开发

管理配置：假设目录conf包含三个配置文件：hadoop-local.xml,hadoop-localhost.xml和hadoop-cluster.xml。hadoop-local.xml包含默认的Hadoop配置。hadoop-localhost.xml文件中的设置指向本地主机运行的namenode和YARN资源管理器hadoop-cluster.xml文件包含集群上namenod...

2018-07-11 19:34:20 369

原创第二章协同过滤推荐

2.1基于用户的最近邻推荐主要思想如下：首先，给定一个评分数据集和当前（活跃）用户的ID作为输入，找出与当前用户过去有相似偏好的其他用户，这些用户有时被称为对等用户或最近邻；然后，对当前用户没有见过的每个产品p，利用其近邻对p的评分计算预测值。这种方法的潜在假设是: (1)如果用户过去有相似的偏好，那么他们未来也会有相似的偏好。 (2)用户偏好不会随时间而变化。用户集U={u1...

2018-07-08 22:41:48 449

原创文本分类实例

Python机器学习项目的模板1.定义问题 a)导入类库 b)导入数据集from sklearn.datasets import load_filesfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfVectorize...

2018-07-08 20:39:43 3112

原创 Hadoop的IO操作

Hadoop自带一套原子操作用于数据I/O操作。其中有一些技术比Hadoop本身更常用，如数据完整性和压缩，序列化框架和盘数据结构。数据完整性检测数据是否损坏的常见措施是，在数据第一次引入系统时计算校验和并在数据通过一个不可靠的通道进行传输时再次计算校验和，这样就能发现数据是否损坏，如果计算所得的新校验和和原来的校验和不匹配，我们就认为数据已损坏。但该技术并不能修复数据。常见的错误检测码是...

2018-07-08 15:26:47 5091 1

原创二分类实例

导入数据import numpy as npfrom matplotlib import pyplotfrom pandas import read_csvfrom pandas.plotting import scatter_matrixfrom pandas import set_optionfrom sklearn.preprocessing import Standard...

2018-07-07 19:01:14 2770

原创关于YARN

YARN是Hadoop的集群资源管理系统。YARN应用运行机制YARN通过两类长期运行的守护进程提供自己的核心服务：1.管理集群上资源使用的资源管理器(resource manager) 2.运行在集群中所有节点上且能够启动和监控容器的节点管理器。容器用于执行特定应用程序的进程，每个容器都有资源限制。为了在YARN上运行一个应用，首先，客户端联系资源管理器，要求它运行一个applica...

2018-07-06 21:46:39 442

原创回归项目实例

项目模板#Python机器学习项目的模板#1.定义问题#a)导入类库#b)导入数据集#2.理解数据#a)描述性统计#b)数据可视化#3.数据准备#a)数据清洗#b)特征选择#c)数据转换#4.评估算法#a)分离数据集#b)定义模型评估标准#c)算法审查#d)算法比较#5.优化模型#a)算法调参#b)集成算法#6.结果部署#a)预测评估数据...

2018-07-06 20:13:33 698

原创 HDFS

HDFS中fsck指令可以显示块信息hdfs fsck / -files -blocksnamenode和datanodeHDFS集群有两类节点以管理节点-工作节点模式运行，即一个namenode（管理节点）和多个datanode(工作节点）。namenode管理文件系统的命令空间。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上：命名空间镜...

2018-07-05 19:12:19 876

原创 Mapreduce

Mapreduce是一个批量查询处理器，基本上是一个批处理系统，并不适合交互式分析。HBase，一种使用HDFS做底层存储的键值存储模型。HBase不仅提供对单行的在线读/写访问，还提供对数据块读/写的批操作。一些不同的，能与Hadoop协同工作的处理方式： 1.交互式SQL 利用Mapreduce进行分发并使用一个分布式查询引擎，使得在Hadoop上获得SQL查询低延迟响应的同时还能保持...

2018-07-05 16:32:55 303

原创预测模型项目模板

机器学习时针对数据进行自动挖掘，找出数据的内在规律，并应用这个规律来预测新的数据。分类或回归模型的机器学习项目可以分为以下六个步骤：（1）定义问题（2）理解数据（3）数据准备（4）评估算法（5）优化模型（6）结果部署机器学习项目的Python模板#Python机器学习项目的模板#1.定义问题#a)导入类库#b)导入数据集#2.理解数据#a)描述...

2018-07-05 15:01:18 881

原创持久化加载模型

找到一个能够生成高准确度模型的算法不是机器学习最后的步骤，在实际的项目中，需要将生成的模型序列化，并将其发布到生产环境中。当有新数据出现时，需要反序列化已保存的模型，然后用其预测新的数据。 a.模型序列化和重用的重要性 b.如何通过pickle来序列化和反序列化机器学习的模型 c.如何通过joblib来序列化和反序列化机器学习的模型1.通过pickle序列化和反序列化机器学习的模型 p...

2018-07-05 13:57:24 387

原创集成算法和算法调参

1.集成算法三种流行的集成算法的方法： 1.装袋（Bagging)算法：先将训练集分离成多个子集，然后通过各个子集训练多个模型 2.提升（Boosting)算法：训练多个模型并组成一个序列，序列中的每一个模型都会修正前一个模型的错误。 3.投票算法：训练多个模型，并采用样本统计来提高模型的准确度1.1装袋算法装袋算法是一种提高分类准确率的算法，通过给定组合投票的方式获得最优解。装...

2018-07-04 20:04:18 1475

原创算法比较和自动流程

1.算法比较比较不同算法的准确度，选择合适的算法，在处理机器学习的问题时是非常重要的。 a.如何设计一个实验来比较不同的机器学习算法 b.一个可以重复利用的，用来评估算法性能的模板 c.如何可视化算法的比较结果1.1选择最佳的机器学习算法每种模型都有各自适合处理的数据特征，通过交叉验证等抽样验证方式可以得到每种模型的准确度，并选择合适的算法。通过这种评估方式，可以找到一种或两种最...

2018-07-03 22:27:15 330

原创审查分类算法及审查回归算法

1.审查分类算法算法审查时选择合适的机器学习算法的主要方法之一。审查算法前并不知道哪个算法对问题最有效，必须设计一定的实验进行验证，从而找到对问题最有效的算法。 1.1算法审查审查算法前没有办法判断哪个算法对数据集最有效，能够生成最优模型，必须通过一系列实验判断出哪些算法对问题有效，然后再进一步来选择算法。这个过程被叫做算法审查。在选择算法时，应该换一种思路，不是...

2018-07-03 16:17:17 1222

原创评估算法与算法评估矩阵

要知道算法模型对未知数据表现如何，最好的评估办法是利用已经明确知道结果的数据运行生成的算法模型进行验证。此外，还可以采用重新采样评估的方法，使用新的数据来评估算法模型。 1.评估算法的方法在评估机器学习算法的时候，为什么不将训练数据集直接作为评估数据集，最直接的原因是过度拟合，不能有效地发现算法模型中的不足。过度拟合是指为了得到一致假设变得过度严格。避免过度拟合是分类器设计中的一...

2018-07-02 15:46:08 2692

特征工程是建立高准确度机器学习算法的基础，使用正确的特征来构建正确的模型，以完成既定的任务。数据预处理需要根据数据本身的特性进行，有不同的格式和不同的要求，有缺失值要填，有无效数据的要剔除，有冗余维的要选，这些步骤都和数据本身的特性紧密相关。数据预处理大致分为三个步骤：数据的准备，数据的转换，数据的输出。数据处理是系统工程的基本环节，也是提高算法准确度的有效手段。因此，为了提高算法模型的准确度...

2018-06-30 17:22:39 768

原创第七章支持向量机（二）

7.3非线性支持向量机非线性支持向量机用于解决非线性问题，使用核技巧。 7.31核技巧 1.非线性问题如果一个问题用直线（线性模型）无法将正负实例正确分开，但能用一个超曲面将正负实例正确分开，则称这个问题是非线性可分问题。非线性问题往往不好求解，所以希望能够用解线性分类问题的方法解决这个问题。所采取的的方法是进行一个非线性变换，将非线性问题变换为线性问题，通过解变换...

2018-06-12 21:28:25 539

原创数据导入和数据理解以及数据可视化

1.CSV文件： CSV文件是用逗号(,)分隔的文本文件，在数据导入之前，通常会审查CSV文件中的内容。通常注意以下几个方面。1.1文件头如果CSV的文件里包括文件头的信息，可以很方便地使用地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息，需要自己手动设定读入文件地字段属性名称。数据导入时，设置字段属性名称，有助于提高数据处理程序地可读性。1.2.文件...

2018-06-12 21:07:02 1267

原创 Python和SciPy速成

1.Python速成 1.1基本数据类型和赋值运算字符串#字符串data = 'Hello world!'print(data[0])print(data[1:5])print(len(data))print(data)空值在Python中，每一种数据类型都是对象，空值是Python中的一个特殊值，用None表示，表示该值是一个空对象。可以将None赋值给任何变量，...

2018-06-11 20:59:50 776

原创初识机器学习

利用机器学习的预测模型来解决问题共有六个基本步骤，如下 1.定义问题：研究和提炼问题的特征，以帮助我们更好地理解项目的目标。 2.数据理解：通过描述性统计和可视化来分析现有的数据。 3.数据准备：对数据进行格式化，以便于构建一个预测模型。 4.评估算法：通过一定的方法分离一部分数据，用来评估算法模型，并选取一部分代表数据进行分析，以改善模型。 5.优化模型：通过调参和集成算法提升预测结果...

2018-06-11 15:08:29 278

原创数据库（七）视图

视图是从一个或多个表中导出的表，是一个虚拟存在的表。视图就像一个窗口，通过这个窗口可以看到系统专门提供的数据。这样，用户就不用看到整个数据库表中的数据，而只关心对自己有用的数据。视图可以使用户的操作更加方便，而且可以保障数据库系统的安全性。7.1视图概述视图是由数据库中的一个表或者多个表导出的虚拟表，方便用户对数据的操作，其内容由查询定义。同真实的表一样，视图包括一系列带有名称的列...

2018-06-10 16:45:43 434

原创数据库（六）索引

索引是一种特殊的数据库结构，是提高数据库性能的重要方式，可以用来快速查询数据库表中的特定记录，mysql中所有的数据类型都可以被索引。mysql的索引包括普通索引、唯一性索引、全文索引、单列索引、多列索引和空间索引等。6.1索引概述在Mysql中，索引由数据表中一列或多列组合而成，创建索引的目的是为了优化数据库的查询速度。其中，用户创建的索引指向数据库中具体数据所在位置。当用户通过...

2018-05-30 10:58:00 1602

原创数据库（五）常用函数

select abs(5),abs(-5);--abs(x)函数求绝对值select floor(1.5),floor(-2);--返回小于或等于x的最大整数select rand(),rand();--选取随机数select pi();--返回圆周率select truncate(2.1234567,3);--返回x保留小数点后y位的值select round(1.2),ro...

2018-05-26 17:02:54 2340

原创推荐系统初概念

推荐系统分为协同过滤推荐、基于内容的推荐、基于知识的推荐、混合推荐方法。1.协同过滤推荐由于选择可能感兴趣的书涉及从大量集合中过滤出最有希望的书，而且用户是在隐式地与其他人相互协作，因此这种技术称为协同过滤。协同方法背景下的常见问题如下： 1.如何发现与我们要推荐的用户有着相似偏好的用户？ 2.如何衡量相似度？ 3.如何处理还没有购买经历的新用户？ 4.如果只有很少的评分该...

2018-05-19 19:44:14 273

原创数据库（四）数据查询

4.1基本查询语句 select基本语法如下：select selection_list //要查询的内容，选择哪些列from 数据表名 //指定数据表where primary_constraint //查询时需要满足的条件，行必须满足的条件group by groupin

2018-05-17 15:36:37 439

原创第七章支持向量机（一）

支持向量机是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它称为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机学习方法包含构建由简至繁的模型：线性可分支持向量机，

2018-05-15 21:39:19 897

原创数据库（三）表数据的增，删，改操作

3.1插入数据insert … values语句插入数据1.插入完整数据insert into tb_admin values(1,'mr','mrsoft','2018-05-07 16:56:00');2.插入数据记录的一部分insert into tb_admin(user,password) values('rjkflm','111');由于在设计数据表时候...

2018-05-07 17:38:50 330

原创剑指Offer面试题33二叉搜索树的后序遍历序列java版

题目：输入一个整数数组，判断该数组是不是某二叉搜索树的后序遍历的结果。如果是则输出Yes,否则输出No。假设输入的数组的任意两个数字都互不相同。分析：在后序遍历序列中，最后一个数字是树的根节点的值。数组中前面的数字可以分为两部分：第一部分是左子树节点的值，它们都比根节点的值小；第二部分是右子树节点的值，它们都比根节点的值大。所以先取数组中最后一个数，作为根节点。然后从数组开始计数比根节点小的数，

2018-05-07 16:23:35 1527

原创第六章（一）逻辑回归

6.1逻辑斯谛回归模型6.1.1逻辑斯谛分布定义6.1逻辑斯谛分布：设X是连续随机变量，X服从逻辑斯谛分布是指X具有下列分布函数和密度函数：F(x)=P(X≤x)=11+e−(x−μ)/γF(x) = P(X \le x) = \frac{1}{{1 + {e^{ - (x - \mu )/\gamma }}}} f(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2f(x) = \f

2018-05-04 17:59:41 274

原创数据库（二）MySQL的运算符和MySQL的流程控制语句

1.MySQL的运算符算术运算符select row,row+row,row-row,row*row,row/row from tb_book;比较运算符select id,books,id=27 from tb_book;select id,books,row<>1,row!=41,row!=24 from tb_book where id =27;select id,books,row>90 f

2018-05-04 15:53:08 227

原创剑指Offer面试题32：从上到下打印二叉树java版

题目：从上往下打印出二叉树的每个节点，同层节点从左至右打印。分析：题目的要求即层次遍历二叉树。可实现的方法是利用队列，每次把根节点先存入，然后依次输出该根节点，判断该根节点有无左右节点，如果有左右节点的话，依次存入队列。然后队列再输出一个节点，并将这个输出节点作为根节点，然后判断该根节点有无左右节点，如此循环下去。代码：public class Solution { public Arr

2018-05-03 21:04:46 218

原创剑指Offer面试题31栈的压入和弹出序列java版本

题目：输入两个整数序列，第一个序列表示栈的压入顺序，请判断第二个序列是否为该栈的弹出顺序。假设压入栈的所有数字均不相等。例如序列1,2,3,4,5是某栈的压入顺序，序列4，5,3,2,1是该压栈序列对应的一个弹出序列，但4,3,5,1,2就不可能是该压栈序列的弹出序列。（注意：这两个序列的长度是相等的）分析：建立一个辅助栈。借用一个辅助的栈，遍历压栈顺序，先讲第一个放入栈中，这里是1，然后判断栈

2018-05-03 20:04:12 236

原创第五章决策树

决策树是一种基本的分类和回归方法。本章主要讨论用于分类的决策树。决策树模型是树型结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时候，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时候，对新的数据，利用决策树模型进行分类。决策树学习通常包含3个步

2018-05-03 18:02:52 497

原创剑指Offer面试题30包含min函数的栈java版

题目：定义栈的数据结构，请在该类型中实现一个能够得到栈最小元素的min函数。分析：采用辅助栈import java.util.Stack;import java.util.*;public class Solution { Stack<Integer> data = new Stack<Integer>(); Stack<Integer> minstack = new Sta

2018-04-28 22:54:00 291

原创剑指Offer面试题29：顺时针打印矩阵java版

题目：输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字，例如，如果输入如下矩阵： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则依次打印出数字1,2,3,4,8,12,16,15,14,13,9,5,6,7,11,10.。分析：由于是从外圈到内圈的顺序依次打印的，所以我们可以把矩阵想象成若干个圆。用一个循环来打印矩阵，每次打印矩阵中的一个圆...

2018-04-27 23:29:36 242

原创剑指Offer面试题27java版本

题目：操作给定的二叉树，将其变换为源二叉树的镜像。分析：先前序遍历这棵树的每个节点，如果遍历到的节点有子节点，就交换它的两个子节点。当交换完所有非叶节点的左、右子节点之后，就得到了树的镜像。代码：/**public class TreeNode { int val = 0; TreeNode left = null; TreeNode right = null;

2018-04-27 20:48:30 264

原创第四章朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。4.1朴素贝叶斯法的学习与分类4.1.1基本方法设输入空间X⊆RnX \subseteq {R^n}为n维向量的集合，输出空间为类标记集合Y={c1,c2,...,ck}Y =

2018-04-27 16:44:34 285

原创第三章k近邻法

k近邻法（KNN）是一种基本分类和回归方法。k近邻法的输入为实例的特征向量，对应于特征空间中的点；输出为实例的类别，可以取多类。k近邻法假设给定一个训练数据集，其中的实例类别已定。分类时候，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此，k近邻法不具有显式的学习过程。k近邻法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”。k值的选择、距离度量及分

2018-04-27 12:25:51 607

原创第二章感知机

感知机是二元分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面，为了基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型

2018-04-26 13:32:37 696

原创第一章统计学习方法概论（四）分类问题、标注问题和回归问题

分类问题：评估分类器性能的指标一般是分类准确率，其定义是：对于给定的测试数据集，分类器正确分类的样本数和总样本数之比，也就是损失函数是0-1损失时候，测试数据集上的准确率。对于二类分类问题常用的评价指标是精确率与召回率。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记作：TP——将正类预测为正类数 FN——将正类预测为负类数

2018-04-25 17:04:58 928

空空如也

空空如也