kokopop007-CSDN博客

原创什么是决策树Decision Tree

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。我们来简单了解一下决策树是如何工作的。*树模型1.决策树：从跟节点开始一步步走到叶子节点（决策）2.所有的数据最终都会落到叶子结点，既可以做分类也可以做回归如上图所示，有一家五口人，首先还是先来做

2021-03-12 20:59:00 1048

原创 ML 1.什么是KNN(K近邻算法)

K近邻算法：·思想极度简单·应用的数学知识少（近乎为零）·效果好（有什么缺点？）·可以解释机器学习算法使用过程中的很多的细节问题·更完整的刻画机器学习应用的流程1.什么是KNN？何谓K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，单从名字来猜想，可以简单粗暴的认为是：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。用官...

2020-03-27 15:42:56 1935

原创数据科学包之Pandas

https://github.com/cpup007/pandas/blob/master/panda.ipynb同时也可以参考pandas官方十分钟入门文档：https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

2020-03-25 15:52:43 236

原创高深莫测的梯度下降法（GD）和随机梯度下降法（SGD）

梯度下降法：·不是一个机器学习方法是一种基于搜素的最优化方法作用：最小化一个损失函数（最终我们要求解的线性回归模型的本质就是最小化一个损失函数，直接计算出最小化函数的对应的参数的数学解，但是后面会发现很多机器学习的模型是求不到这样的数学解的，基于这样的模型我们就需要基于搜素的策略来找到这个最优解，而梯度下降发就是在机器学习领域最小化损失函数的最为常用的方法，掌握梯度法来求一个目标函数的最优值...

2020-03-22 21:23:25 2864

原创看看你所理解的资源调度框架Yarn

&YARN产生背景MapReduce1.x存在的问题MapReduce架构图：1.master/slave架构：JobTracker/TaskTrackerJobTracker:单点，仅仅只能够支持MapReduce作业2，资源利用率，所有的计算框架运行在一个集群中，共享一个集群的资源，按需分配YARN概述&Yet Another Resource Negotiat...

2020-03-21 23:02:37 337

原创数据科学包之Numpy

numpy的基本属性import numpy as nparray = np.array([[1,2,3],[2,3,4]])print(array)print('number of dim:',array.ndim)#查看是几维的print('shpe:',array.shape)#查看期形状，是几行几列print('size:',array.size)#查看大小创建array...

2020-03-07 18:12:50 197

原创如何构建机器学习系统？

首先明确：1.该问题是否为机器学习问题？ – 是2.该问题是机器学习哪方面的问题？ – 监督学习、无监督学习3.当拿到数据之后从下面两个角度思考问题：1）从数据角度思考：根据具备的数据看能够做监督学习or无监督学习or半监督学习2）从业务角度思考：根据业务部门指定的业务方向，整理数据，从而建模特征工程对特征处理对数据的处理数据+选择的算法==>模型通过测试集测试模型，...

2019-08-30 20:35:08 358

原创机器学习三要素

机器学习经典案例车牌、验证码识别的普通方法为：（1）将图片灰度化与二值化。（2）去噪，然后切割成一个一个的字符。（3）提取每一个字符的特征，生成特征矢量或特征矩阵。（4）分类与学习。将特征矢量或特征矩阵与样本库进行比对，挑选出相似的那类样本，将这类样本的值作为输出结果。案例需要明确：明确：机器学习监督学习中的分类问题10分类问题3232矩阵–转换为12014列的矩阵–通过SVM...

2019-08-30 16:59:56 452

原创机器学习分类

先来看看思维导图：引出分类与回归的问题分类 (classification):目标标记为类别型数据(category)回归(regression):目标标记为连续性数值 (continuous numeric value)机器学习分类 - 1根据是否是连续值得预测，分为一.机器学习分类分类问题–离散值预测，如小明学习水上运动回归问题–连续值预测，如房价预测二.机器学习处理问...

2019-08-30 16:27:03 794

原创机器学习之数据集

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员对于机器学习中的数据集：对于数据集需要了解：1....

2019-08-29 23:07:07 2850

原创什么是机器学习？

人工智能与机器学习和深度学习的关系机器学习是人工智能的一个分支；除了机器学习数据挖掘模式识别深度学习：深度学习是机器学习的一种方法，是为了解决机器学习领域中如图像识别等问题提出人工智能如何落地：依靠机器学习数据分析、数据挖掘和机器学习的关系数据：即观测值,如测量数据信息：可信的数据。数据分析：从数据到信息的整理、筛选和加工过程数据挖掘：对信息进行价值化的分析用机器学习的方法...

2019-08-29 17:18:54 226 2

原创大数据项目架构-电信日志分析

项目名称：电信日志分析系统项目描述：电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算，数据主要来源于用户的上网产生的访问日志和安全日志，通过Hadoop大数据平台完成日志的入库，处理，查询，实时分析，上报等功能，达到异常IP的检测，关键词过滤，违法违规用户的处理等，整个项目数据量在1T-20T左右，集群数量在10台到100台。项目架构分析：*数据采集层：ftp scoket方...

2019-08-29 16:55:09 1710

原创二叉树的性质及遍历

二叉树二叉树的基本概念二叉树是每个节点最多有两个子树的树结构。通常子树被称作“左子树”（left subtree）和“右子树”（right subtree）二叉树的性质(特性)性质1: 在二叉树的第i层上至多有2^(i-1)个结点（i>0）性质2: 深度为k的二叉树至多有2^k - 1个结点（k>0）性质3: 对于任意一棵二叉树，如果其叶结点数为N0，而度数为2的结点总数为...

2019-08-28 21:22:28 349

原创树与树算法

树与树算法树的概念树（英语：tree）是一种抽象数据类型（ADT）或是实作这种抽象数据类型的数据结构，用来模拟具有树状结构性质的数据集合。它是由n（n>=1）个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点：每个节点有零个或多个子节点；没有父节点的节点称为根节点；每一个非根节点有且只有一个父节点；除...

2019-08-28 19:33:24 547

原创排序与搜索（四）：二分查找

搜索搜索是在一个项目集合中找到一个特定项目的算法过程。搜索通常的答案是真的或假的，因为该项目是否存在。搜索的几种常见方法：顺序查找、二分法查找、二叉树查找、哈希查找二分法查找二分查找又称折半查找，优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键...

2019-08-28 17:59:17 222

原创排序与搜索（三）：希尔排序与快速排序与归并排序

希尔排序希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序，是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因DL．Shell于1959年提出而得名。希尔排序是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序；随着增量逐渐减少，每组包含的关键词越来越多，当增量减至1时，整个文件恰被分成一组，算法便终止。希尔排序过程希尔排序的基本思想是：将...

2019-08-28 17:28:21 350

原创排序与搜索（二）：选择排序与插入排序

选择排序选择排序（Selection sort）是一种简单直观的排序算法。它的工作原理如下。首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置，然后，再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。以此类推，直到所有元素均排序完毕。选择排序的主要优点与数据移动有关。如果某个元素位于正确的最终位置上，则它不会被移动。选择排序每次交换一对元素，它们当中至少有一个将...

2019-08-27 16:24:48 135

原创排序与搜索（一）：冒泡排序

排序与搜索排序算法（英语：Sorting algorithm）是一种能将一串数据依照特定顺序进行排列的一种算法。排序算法的稳定性稳定性：稳定排序算法会让原本有相等键值的纪录维持相对次序。也就是如果一个排序算法是稳定的，当有两个相等键值的纪录R和S，且在原本的列表中R出现在S之前，在排序过的列表中R也将会是在S之前。当相等的元素是无法分辨的，比如像是整数，稳定性并不是一个问题。然而，假设以下...

2019-08-27 15:10:14 135

原创栈与队列

前面我们了解到链表和顺序表统称为线性表，那么我么该如何来运用呢？栈栈（stack），有些地方称为堆栈，是一种容器，是用来保存线性数据的，可存入数据元素、访问元素、删除元素，它的特点在于只能允许在容器的一端（称为栈顶端指标，英语：top）进行加入数据（英语：push）和输出数据（英语：pop）的运算。没有了位置概念，保证任何时候可以访问、删除的元素都是此前最后存入的那个元素，确定了一种默认的访问...

2019-08-27 00:12:31 111

原创双向链表与单向循环链表

双向链表一种更复杂的链表是“双向链表”或“双面链表”。每个节点有两个链接：一个指向前一个节点，当此节点为第一个节点时，指向空值；而另一个指向下一个节点，当此节点为最后一个节点时，指向空值。操作is_empty() 链表是否为空length() 链表长度travel() 遍历链表add(item) 链表头部添加append(item) 链表尾部添加insert(pos, item...

2019-08-26 18:01:52 222

原创什么是链表

链表为什么需要链表顺序表的构建需要预先知道数据大小来申请连续的存储空间，而在进行扩充时又需要进行数据的搬迁，所以使用起来并不是很灵活。链表结构可以充分利用计算机内存空间，实现灵活的内存动态管理。链表的定义链表（Linked list）是一种常见的基础数据结构，是一种线性表，但是不像顺序表一样连续存储数据，而是在每一个节点（数据存储单元）里存放下一个节点的位置信息（即地址）。链表的表...

2019-08-26 10:40:00 2452

原创什么是顺序表

顺序表在程序中，经常需要将一组（通常是同为某个类型的）数据元素作为整体管理和使用，需要创建这种元素组，用变量记录它们，传进传出函数等。一组数据中包含的元素个数可能发生变化（可以增加或删除元素）。对于这种需求，最简单的解决方案便是将这样一组元素看成一个序列，用元素在序列里的位置和顺序，表示实际应用中的某种有意义的信息，或者表示数据之间的某种关系。这样的一组序列元素的组织形式，我们可以将其抽象为...

2019-08-25 00:43:07 17481 1

原创什么是算法？数据结构与算法概念

算法的概念算法是计算机处理信息的本质，因为计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的任务。一般地，当算法在处理信息时，会从输入设备或数据的存储地址读取数据，把结果写入输出设备或某个存储地址供以后再调用。算法是独立存在的一种解决问题的方法和思想。对于算法而言，实现的语言并不重要，重要的是思想。算法可以有不同的语言描述实现版本（如C描述、C++描述、Python描述等），...

2019-08-24 20:37:25 3820

原创外部数据源External Data Source API

产生背景1.Every Spark application starts with loading data and ends with saving data2.Loading and saving Data is not easy3.Parse raw data:test/json/parquet4.Convert data format transformation5.Datase...

2019-08-23 21:47:51 591

原创 DataFrame&Dataset

#DataFrame产生背景DataFrame不是spark sql提出的，而是早在R，Pandas语言就已经存在了。#DataFrame概述官网概述：A Dataset is a distributed collection of data数据集是分布式数据集合A DataFrame is a Dataset organized into named columns.DataFra...

2019-08-23 20:50:29 751

原创 Spark SQL概述

官网概述：Spark SQL is Apache Spark’s module for working with structured data.Spark SQL是Apache Spark处理结构化数据的模块。Spark SQL不仅仅有访问和操作SQL的功能，还提供了其他的非常丰富的操作：外部数据源，优化。Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD ...

2019-08-21 20:56:24 121

原创 Hbase安装

.HBase 安装步骤1 下载Apache 版本：http://archive.apache.org/dist/hbase/CDH 版本：http://archive-primary.cloudera.com/cdh5/cdh/5/这里选择下载 hbase-1.2.0-cdh5.10.0.tar.gz 版本的安装包，上传至主节点 app 目录。2 解压使用如下命令解压 HBase 安装...

2019-08-20 16:54:28 268

原创 Hbase自动关闭问题

查看日志：java.lang.RuntimeException: Failed construction of Master: class org.apache.hadoop.hbase.master.HMaster. at org.apache.hadoop.hbase.master.HMaster.constructMaster(HMaster.java:2462) ...

2019-08-20 16:36:23 1294

原创 Kafka API编程

1.创建maven项目2.pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.ap...

2019-08-17 21:37:18 495

原创分布式消息队列Kafka

&Kafka概述Kafka: A distributed streaming platformKafka®用于构建实时数据管道和流媒体应用程序。它是水平可伸缩的，容错能力强，运行速度快，可以在数千家公司中运行。重要概念：生产者&消费者ex：妈妈：生产者你：消费者馒头：数据流，消息&Kafka架构及核心概念官网介绍：ApacheKafka®是一个分布式...

2019-08-15 18:29:57 202

原创 Hive DDL DML

## DDL：Hive Data Definition Languagecreate、delete、alter…Hive数据抽象/结构官网Overview：HiveQL DDL statements are documented here, including:CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEXDROP DA...

2019-08-14 01:23:44 107

原创 HIVE：一个神奇的分布式数据仓库

&Hive产生背景1.MapReduce编程的不方便性2.传统RDBMS人员的需要HDFS上的文件没有schema概念&HIve概述1.由Facebook开源，用于解决海量结构化日志的数据统计问题2.构建在Hadoop之上的数据仓库3.Hive提供的SQL查询语言：HQL4.底层支持多种不同的执行引擎 MR/Tez/Spark5.提供统一元数据管理，Hive数据是...

2019-08-13 18:43:57 369

原创 Hadoop电商项目浏览量统计实战代码重构

上篇文章存在的问题：每个MR作业都去全量读取待处理的原始日志，如果数据流很大，疯掉ETL：全量数据不方便直接进行计算，最好是晋西一步处理后在进行想要的维度统计分析解析出你要的字段：Ip==》城市信息去除一些你不需要的字段：不需要的字段太多了ip/time/url/page_id/country/provine/city第一步import com.imooc.bigdata.hadoop...

2019-08-12 18:42:47 611

原创 Hadoop电商项目浏览量统计实战

项目需求&统计页面的浏览量&统计各个省份的浏览量&统计页面的访问量一.数据处理流程及技术架构1.统计页面的浏览量select count(1) from xxx,count 把每一行作出一个固定的KEY，value的赋值为1 project mr PVStatApp2.统计各个省份的浏览量select province count(1) from xx...

2019-08-12 18:14:53 1383 7

原创 Hadoop自定义复杂类型流量统计wordcount详解

需求：统计每个手机上行流量和下行流量，总的流量和(上行流量+下行流量)1.数据文件：Access.log1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-...

2019-08-09 17:08:46 348

原创 Hadoop WordCount代码详解及升级Combiner操作

一.是创建Mapper类import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException...

2019-08-07 16:36:46 434

原创 Hadoop分布式计算框架MapReduce

mapreduce概述&源自于Google的MapReduce论文，论文发表于2004年12月&Hadoop MapReduce是Google MapReduce的克隆版&MapReduce优点：海量数据李先处理&易开发&易运行&MapReduce缺点：实时流式计算Hadoop MapReduce is a software framewo...

2019-08-07 15:52:40 199

原创使用HDFS API完成HDFS文件系统上的文件的词频统计代码重构！

使用HDFS API完成HDFS文件系统上的文件的词频统计代码重构！上篇文章说到硬编码在正常的工作当中是非常忌讳的所以我们必须要重构代码，变成可配置编码！1.新建一个资源包新建wc.properties文件INPUT_PATH=/hdfsapi/test/hello.txtOUTPUT_PATH=/hdfsapi/outputOUTPUT_FILE=wc.outHDFS_URI=hdf...

2019-07-27 17:15:46 380

原创使用HDFS API完成HDFS文件系统上的文件的词频统计（wordcount）

使用HDFS API完成HDFS文件系统上的文件的词频统计（wordcount）词频统计：wordcount如两个文件：/path/1.txthello world hello（注意是tab分割还是space分割）/path/2.txthello world hello结果：==> (hello,4) (world,2)将统计完的结果输出到HDFS上去。1.首先编写整体框架...

2019-07-27 17:02:17 1122

原创 HDFS读写数据流程图

HDFS的读数据流程：HDFS写数据流程：

2019-07-27 16:45:57 860

空空如也

空空如也