Stephen.X-CSDN博客

原创 Hive笔记学习1

1.1Hive 基本概念： Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序。（我一般理解为是hadoop的客户端，数据存储在hdfs上，而数据处理默认采用mr，当然也可以换成spark等引擎，需要先配置环境等）运行机制： 1.2 Hive 的优缺点： 1) 操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）。 2) 避免了去写 MapReduc.

2022-05-11 17:36:47 157

原创机器学习总结（四）

聚类算法之前我们学习的都是有监督学习，这里我们要进入无监督的学习无监督问题：没有标签聚类：把相似的东西分为一组 K-means算法： 1.要得到簇的个数需要指定k值，例如k为5就分为5个簇 2.质心，就是向量各维度取的平均值 3.距离度量，常用欧几里得距离和余弦相似度，注意要先标准化 4.优化目标，找一个目标函数不断优化 ...

2022-01-22 16:15:51 392

原创机器学习总结（三）

所谓决策边界就是能够把样本正确分类的一条边界，主要有线性决策边界(linear decision boundaries)和非线性决策边界(non-linear decision boundaries)。多分类：利用softmax进行多分类可以理解为先放大差异（分子），在归一化接下来同样是鸢尾花数据进行多分类 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iri.

2022-01-21 11:29:43 845

原创机器学习总结（二）

逻辑回归：虽说是回归，但是其本质是分类，逻辑回归是最经典的二分类算法、机器学习算法选择：先逻辑回归，再用复杂的，能简单就简单逻辑回归的决策边界可以是非线性的 sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。对于传统逻辑回归，要对标签做变换，属于当前类别为1，不属于当前类别为0 决策边界的绘制： 1.构建坐标数据，合理的范围当中，根据实际训练时输入数据决定 2.整合坐标点，得到所有输入测试坐

2022-01-20 21:34:23 656

原创 python中类与对象

python中一切皆对象编程两大思想：面向对象和面向过程都是解决问题的思路.，只是角度不同面向过程强调:解决问题的每一个细节和步骤都亲历亲为面向对象强调:使用特定对象解决特定的问题注意:面向对象是基于面向过程类组成：类属性实例方法静态方法类方法 class Student: # 类的名称首字母大写，不同的单词以下划线分隔，且都要大写例如Student_Method native_place = '安徽' # 类属性，只要是卸载类里面的变量广义上都叫类

2022-01-20 17:12:36 757 1

原创 html表格

表格基础表格主要由三个标签组成 table 作用是定义了一个表格的结构 tr 定义了表格的行 td 作用是定义表格的单元格 table标签有两个属性，一个是border="1",这个属性是用来设置表格的边框的，如果没有这个属性，边框不显示，第二个属性是style="border-collapse:collapse"是css样式，作用就是合并表格如果表格需要设置表头，可以用tr里面嵌套th来设置单元格合并一部分单元格需要进行跨行跨列合并，可以给td，th标签设置相关属性 rowspa

2021-10-14 11:35:22 78

原创 html 列表

列表都不是单打独斗的，通常是由一组标签组成的 1.无序列表作用：定义一个没有顺序的列表。由两个标签ul和li组成需要注意的是，ul内部嵌套li，他们是父子关系，规则：ul标签的内部只能嵌套li，li标签内部可以嵌套任何标签，包括li，列表项之间是没有先后顺序之分的列表项之前的前缀样式，是由css去控制的 2.有序列表作用：定义一个有序列表的列表结构需要由两个标签组成，分别是ol和li 需要注意的是，ol内部嵌套li，他们是父子关系，规则：ol标签的内部只能嵌套li，

2021-10-12 22:43:45 83

原创 html常用标签

h系列标签，又称为标题标签，主要作用是给页面文本添加标题语义 p标签，又成为段落标签，主要是给页面的文本添加段落的语义 img标签，作用是在页面内部引入图片地址 a标签，作用是设置文本的超级链接和锚点 ...

2021-10-12 21:41:06 92

原创 html语言学习笔记

html是“超文本标记语言”，主要是通过html标记（标签）对网页中的文本，图片，声音等内容进行语义转化。服务器本质是一种计算机，也有自己的内存和处理器，用来存储网页文件，包含网页的所有文件，比如html，css，js，图片，视频等。浏览器是发送http请求，接收回传的数据，渲染网页。其工作原理：在网址栏输入网址后向服务器发送请求，服务器响应后返回数据到浏览器后渲染。 html标签整个网页必须被<html></html>包裹，它里面有<head>&l

2021-10-12 17:18:33 546

原创 Hive搭建

前提介绍：需要事先安装好hadoop（本文安装的是hadoop-3.2.2版本）文章主要搭建mysql8.0.26，以及hive-3.1.2 文章主要还是以浏览为主，具体介绍就不过多介绍了。一.mysql的安装 1.下载mysql所需要的安装包（rpm) MySQL :: Download MySQL Community Server MySQL :: Download MySQL Connector/J (Archived Versions) 下载我们所需要的jar安装包下载最.

2021-10-05 13:06:13 183

原创 hbase安装与配置

步骤一：解压缩 HBase 安装包 cd /home/master/Downloads tar -zxvfhbase-1.2.2-bin.tar.gz -C/usr/local/src/ 步骤二：重命名 HBase 安装文件夹 cd /usr/local/src/ mv hbase-1.2.2hbase 步骤三：在所有节点添加环境变量 vi /etc/profile # set hbase environment export HBASE_HOME=/usr/local/src/hb...

2021-09-01 21:46:41 3155

原创 flume的安装与配置

解压 Flume 1.tar -zxvfapache-flume-1.7.0-bin.tar.gz -C/usr/local/src 2.cd /usr/local/src/ 3.mv apache-flume-1.7.0-bin/ flume # 修改 Flume 安装路径文件夹名称 4.chown -R root:rootflume/ # 修改文件夹归属用户和归属组为 root用户和 root 组 Flume 组件部署 1.vi /etc/profile # 编辑系统环境变量配置...

2021-09-01 18:51:56 1244

原创 zookeeper安装配置

1.解压zookeeper到指定目录 tar -zxvf zookeeper-3.4.8.tar.gz -C/usr/local/src 改名字 mv /usr/local/src/zookeeper-3.4.8 /usr/local/src/zookeeper 2.zookeeper的配置步骤一：Master 节点配置（1）在 ZooKeeper 的安装目录下创建 data 和 logs 文件夹。 cd /usr/local/src/zookeeper mkdir data..

2021-09-01 18:13:48 625

原创 hive组件的安装

Hive的搭建：本文搭建的是本地模式(derby)，下次会更新基于Mysql的本地模式。 1.移到到Downloads目录看下载好的hive版本 2.解压apache-hive-1.2.2-bin.tar.gz 解压到/opt目录中 tar -zxvfapache-hive-1.2.2-bin.tar.gz -C /opt 接下来改一下名字 mv （要改的名字）（改成什么名字）这是格式本文改成hive 3.配置环境变量 vi /etc/profile export HIVE..

2021-09-01 16:50:32 171

原创 Hadoop集群搭建

因为要参加比赛所以本人写了一篇博客记录一下hadoop集群的搭建，第一次搭建完全分布式，所以基本上都是完成了之后再去写这篇博客，部分内容不可以以图片形式展现了，实在抱歉。三台机器分别为ahdsj2020amaster，ahdsj2020aslave1，shdsj2020aslave2 1、下载Hadoop以及Jdk hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/ jdk下载地址：https://www.o

2021-08-30 18:58:42 904 2

qq_54068745的博客