自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

原创 分类代码选取,Xgboost代码详解与自动调参

建议用jupyter进行编译运行,sklearn更新到最新的版本。分类代码选取,Xgboost代码详解与自动调参

2022-10-28 17:21:34 4123 3

原创 hive常见时间函数

获取当天时间的三种方式,注意格式,其中current_timestamp返回的时间为UTC时间。日期格式化函数,需要什么格式,后面写什么格式的日期字符串描述,to_date仅有一种格式返回结果。hive提供了灵活获取年、月、日、天、小时、分钟、秒、周数、星期几、季节的函数,最后面还。时区转换函数有很多需要注意的点,其也可以联合使用,简单说一下时区,UTC是世界标准时间。主要为时间戳转换为日期函数,和将日期转换为时间戳函数。获取日期和月份的加减操作,灵活处理日期和月份增加减少,日期月份之间互相求差值。

2024-03-08 13:46:19 1247

原创 Hive动态分区静态分区

简述:分区是hive存放数据的一种方式,将列值作为目录来存放数据,就是一个分区,可以有多列。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描不关心的分区,快速定位,提高查询效率。对于静态分区,表的分区数量和分区值是固定的。新增分区或者是加载分区数据时,需要提前指定分区名。对于动态分区,分区的值是不确定的,会根据数据自动的创建新的分区。1.对于静态分区而言分区一开始就是规定好的,包括插入的时候都是根据自己写的东西进行插入。

2024-03-07 15:04:54 1037

原创 HIVE中的常用和不常用的函数总结及hive中的常见问题(自用)

假设A和B是两个集合,存在一个集合,它的元素是用A中元素为第一元素,B中元素为第二元素构成的有序二元组,这个集合称为集合A和集合B的笛卡尔积,记为A X B。eg:假设集合A={a, b},集合B={0, 1, 2},则两个集合的笛卡尔积为{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}。可以用内连接的方式进行笛卡尔积的实现。

2024-03-01 17:15:54 585

原创 DATAX的架构和运行原理

DATAX呢就是把各个不同构的数据库进行同步的过程,具体有hdfs hive Oracle 等等吧。

2024-01-22 10:06:58 715

原创 DophineScheduler通俗版

ZooKeeper:AlertServer:UI:ApiServer:该服务包含:DML(data manipulation language)是数据操纵语言:它们是SELECT、UPDATE、INSERT、DELETE,就象它的名字一样,这4条命令是用来对数据库里的数据进行操作的语言。DDL(data definition language)是数据定义语言:DDL比DML要多,主要的命令有CREATE、ALTER、DROP等,DDL主要是用在定义或改变表(TABLE)的结构,数据类型,表之间的链接和约束等

2024-01-22 09:24:38 1107

原创 Hive建表时候用的参数及其含义

这个时候就要理解什么是外部表,通常我们会用到的MySQL,Oracle这种都是内部表,外部表就例如Hive这种,下面是一些具体区别:定义位置:内部表是在数据库内部定义和存储的,而外部表是在数据库外部定义和存储的。存储位置:内部表的数据存储在数据库的数据文件中,而外部表的数据通常存储在独立的文件系统或外部数据源中,如操作系统的文件系统、分布式文件系统、Hadoop等。数据访问:内部表的数据可以直接由数据库管理系统进行读取和处理,而外部表需要通过数据库连接器或外部数据源的接口进行访问和操作。

2024-01-18 17:29:27 1149 1

原创 pyspark 实验二,rdd编程

启动Hadoop启动spark上传数据集。

2023-04-14 19:48:28 2102 2

原创 Gm(1,1)灰色预测模型python实现(预测)

灰色预测模型实现

2022-11-26 19:43:31 4994

原创 Pandas数据归一化

Pandas数据归一化

2022-10-27 17:25:15 4687 1

原创 KNN算法原理和代码详解

有这样一条河流like that,河流的左边是rich 人家,河流的右边是poor 人家,这时新搬来一家小甲,这个算法是看小甲是有钱人家还是没钱人家。要解决这个问题,那么就可以说立着他最近的几个人家是富人多还是穷人多就可以判别了,K户人家,最近距离就是欧氏距离或者曼哈顿距离,切比雪夫距离。这是欧氏距离,在中学都有学过。advantage: 显而易见的简单以实现,而且对于边界不规则的数据效果较好disadvantage: 只适合小的数据集,数据不平衡就没法用了肯定就难受了,数据必须标准化因为非富有即贫穷没有中

2022-07-06 21:48:11 1054

原创 软考准备之数据库

经典错误1.给定关系R(U,Fr) 其中属性U={A,B,C,D},函数依赖集Fr={A->BC,B->D}关系S(U,Fs),其中属性集U={ACE},函数依赖集为Fs={A->C,C->E}R和S的在逐渐为别为(),关于Fr,Fs的叙述,正确的是。A可以便利全图所以是主键,存在依赖A->B,A->C,A->D,A->C,C->E,A->E 两个关系都存在依赖。2.GRANT TO 用户是赋予权限,with grant option获

2022-05-17 19:45:28 1086

原创 软考准备之操作系统

经典错题1.假设某硬盘由5个盘片构成(共有8个记录面),盘面有效记录区域的外直径为30 cm,内直径为10 cm,记录位密度为250位/mm,磁道密度为16道/mm,每磁道分16个扇区,每扇区512字节,则该硬盘的格式化容量约为()MB。非格式化得容量=面数*(磁道数/面)*内圆周长*最大位密度格式化容量=面数*(磁道数/面)*...

2022-05-16 17:08:12 848

原创 软件著作权

软件著作权的产生时间:自作品完成创作之日。若是两个人一同申请同意发明创造,先申请人有获得专利的权力。软件商标权的权利人是:软件注册商标所有人翻译权是指:将原软件从一种程序设计语言转换成另一种程序设计语言。合理使用:是指在特定的条件下,法律允许他人自由使用享有著作权的作品而不必征得著作权人的同意,也不必向著作权人支付报酬,但应当在指明著作权人姓名、作品名称,并且不侵犯著作权人依法享有的合法权利的情况下对著作权人的作品进行使用。许可使用:是指著作权人将自己的作品以一定的方式、在一定的地域和期限内许可他

2022-05-13 19:12:36 600

原创 软考准备之网络与多媒体技术

网络安全体系设计是逻辑设计工作的重要内容之一,数据库容灾属于系统安全和应用安全考虑范

2022-05-13 17:00:30 814

原创 软考准备之面向对象

设计模式责任链模式:多个对象都有机会处理请求,从而避免发送者和接收者之间的耦合关系,将这些对象串成一个链传输请求,直到有一个对象处理之。 命令模式:请求封装一个对象,从而使得使用者可以采用不同的请求对客户进行参数化,对请求排队或者记录请求日志,支持撤销。 抽象工厂模式:提供一个创建一系列相关或相互依赖的对象接口,无需指定它们具体的类。 观察者:模式定义对象间的一种一对多的依赖关系,当一个对象的状态发生更新,所有依赖对象都被更新。 原型:用原型实例创建对象种类,并通过拷贝这个原型来获得新的对象。

2022-04-30 20:31:35 535

原创 软考准备(计算机组成原理)CPU部分

1.关于CPU

2022-04-23 20:45:04 718

原创 软考准备之系统开发与运行(错题及重要知识点)

1.数据流图拜托系统的为里内容,在逻辑上描述系统的功能,输入输出和数据存贮,是系统逻辑模型的重要组成成分2.关于数据流图 : 对于数据流图的每一个基本加工,必须有一个基本的加工逻辑说明。 基本的加工逻辑说明必须描述基本加工如何把输入数据流变换为输出数据流的加工规则。 加工逻辑说明必须描述实现加工的策略而不是实现加工细节。 加工逻辑说明中说明包含的信息应该是充足的完备的有用的,无冗余的,所以可以用决策表来表示加工规格的说明。 在结构化开发进行设计接口分析阶段用数据流图。 数据流图有四个要素外

2022-04-18 22:00:49 3502

原创 逻辑回归代码详解版

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport ospath = 'C:/Users/Sherlock/data/LogiReg_data.csv'pdData = pd.read_csv(path, header=None, names=['Exam1', 'Exam2', 'Admitted'])pdData.head()print(pdData.head())print(pdD...

2022-04-17 17:20:51 5853

原创 sklearn神经网络,进行多分类,数字识别(代码详解版)

from sklearn.neural_network import MLPClassifierfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerimport matplotlib.pyplot as plt# 测试集,画图对预测值和实际值进行比较def test_validate(x_t.

2022-04-10 16:55:58 2487

原创 软件设计师软考笔记(程序语言部分)及错题知识点

目录2.汇编语言3.解释程序:4.编译程序错题和考点:1、程序语言知识  程序语言分为低级语言和高级语言两个大类。 低级语言:又称为面向机器语言,它是特定的计算机系统所固有的语言。机器语言:虽然执行效率高,但编写出来的程序可读性很差,程序难以修改和维护。 汇编语言:汇编语言是机器语言的一种提升,它使用了一些助记符号来表示机器指 令中的操作码和操作数。但它仍然是一种和计算机的机器语言十分接近的语言,使用起来仍然不太方便。高级语言:与人们的自然语言...

2022-04-05 20:48:17 1737 1

原创 Spark杂谈(map和flatmap的区别 怎样把rdd的结果存储)

map和flatmap的区别 怎样把rdd的结果存储

2022-02-27 21:08:18 1776 2

转载 RDD的设计和运行原理

1.RDD设计背景在实际应用中,存在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。虽然,类似Pregel等图计算框架也是将结果保存在内存当中,但是,这些框架只能支持一些特定的计算模式,并没有提供一种通用的数据抽象。RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我

2022-02-12 10:07:05 819 1

原创 spark运行架构和基础

基本 概念RDD:(官方概念)弹性分布式数据集,就是一个个的在内存里的数据。就是数据的基本单位,所有spark都是来操作他的 DAG 是有向无环图,它的作用主要是反应rdd之间的关系。 Excutor 就是一个容器,就像Hadoop的node一样,用来运行的 应用 顾名思义来编写spark程序的 任务 运行的excutor单元架构设计如图整个图一目了然,spark的架构,关于hdfs和hebase是一种可以读取的源数据类型,除此之外还有很多类型也会被这个读取比如Kafka,或者套接

2022-02-12 09:53:57 1974 2

原创 Spark基础入门

spark简介spark最初诞生于美国加州大学伯克利分校的AMP实验室,是一个可用于大规模的Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点。1.运行速度快:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是

2022-02-11 17:33:56 2969 4

原创 Hadoop 序列化

目录1.什么是序列化2.为啥不用Java序列化(面试重点and考试重点)3.具体操作(Writeble)4.详情案例1.什么是序列化序列化:是吧内存中的对象转化成字节序列,以便于储存到磁盘。反序列化:就是将字节序列或者是磁盘的持久化数据转化为内存中的对象。简而言之就是整个对象不能被传输,比如你创造了一个对象是大学生,但是在传输的过程中并不能把整个大学生传过去,只能传送数据而不能传输具体的人。2.为啥不用Java序列化(面试重点and考试重点)一句话概括

2022-01-07 21:21:31 346 1

原创 HDFS DAY3@

HDFS在eclipse里的操作(API)文件上传@Testpublic void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Configuration(); configuration.set("dfs.replication", "2"); FileSy

2021-12-09 21:05:16 62

原创 HDFS客户端操作

1.客户端环境变量的准备 1.根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径.2.需要配置HADOOP_HOME环境变量3.再ECLIPSE 下创建一个Maven工程HdfsClientDemo4.导入依赖坐标和日志添加<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</ar..

2021-12-05 22:52:18 315

原创 HDFS(基于hadoop2.x)笔记

1.HDFS是个啥1.hdfs是一个文件系统,用来存储文件的,说白了就是一个存储器,而且它是一个分布式的,就好像把一堆乒乓球(数据)放在不同的盒子里,所以他有很多服务器,每个服务器都有自己的角色,比如一个箱子存储蓝色乒乓球,一个箱子存储红色的诸如此类.但它不支持修改,就好比你把乒乓球放进去了就不能再改变它的颜色了,所以它适合一次读入多次读出,不适合做网盘。2.HDFS优缺点1.具有高容错性,数据自动保存多个副本,通过增加副本形式,提高容错性,某一个副本丢失后,可以自动恢复2.适合处理大量的数

2021-12-05 21:22:42 286

转载 linux day10

Linux系统拥有非常灵活和强大的日志功能,可以保存几乎所有的操作记录,并可以从中检索出我们需要的信息。大部分Linux发行版默认的日志守护进程为 syslog,位于 /etc/syslog 或 /etc/syslogd 或/etc/rsyslog.d,默认配置文件为 /etc/syslog.conf 或 rsyslog.conf,任何希望生成日志的程序都可以向 syslog 发送信息。Linux系统内核和许多程序会产生各种错误信息、警告信息和其他的提示信息,这些信息对管理员了解系统的运行状态

2021-10-04 17:00:16 73

原创 Linux入门day9

Shell 编程why1.linux运维工程师在进行服务器集群管理时候需要编写shell程序来进行服务器管理2.java 和 python 程序员来说 需要写一些shell脚本来进行程序或者服务器的维护3.大数据程序员写shell来管理群集whatshell 是一个命令解释器,li它为linux内核发送请求以便运行程序的界面系统程序,用户可以用shell来启动甚至停止一个程序。Shell 的执行方式1.脚本必须以#!/bin/bash开头2.脚本必须要有执行权限.

2021-09-23 21:56:32 111

原创 Linux入门day8

【小白入门 通俗易懂】2021韩顺平 一周学会Linux_哔哩哔哩_bilibili

2021-09-22 22:24:31 84

原创 Linux 入门 day7

linux网络查找vmnet 8 vmnet 8简介在宿主机安装多台虚拟机,和宿主组成一个小局域网,宿主机,虚拟机之间都可以互相通信,虚拟机也可访问外网,例如 搭建 hadoop 集群。在windows里的cmd中输入ipconfig检测linux的地址有方法用ifconfig -aping 检测主机的连接情况linux的网络环境搭建1.自动获取图片均来自老韩自动获取IP地址会有可能每次登录都会不同的IP地址在原来我每次登...

2021-09-21 17:06:03 132

转载 Linux 入门day6

磁盘管理一、分区1、分区的方式1)mbr分区:①最多支持4个主分区②系统只能安装在主分区③扩展分区要占一个主分区④mbr最大只支持2TB,但拥有良好的兼容性2)gtp分区:①支持无限多个主分区(但操作系统可能限制,比如Windows下最多128个)②最大支持18EB(1EB = 1024PB,1PB = 1024TB)③Windows7 64位以后支持gtp。2、Windows下的磁盘分区3、Linux分区原理1)Linux无论有几个分区,分给哪.

2021-09-18 10:45:37 63

原创 Linux入门day 5

权限管理 输入ll 会显示权限以第二个为例第0位确定文件类型p表示命名管道文件d表示目录文件l表示符号连接文件-表示普通文件s表示socket文件c表示字符设备文件b表示块设备文件第1-3位确定文件所有者权限第4-6位确定文件所在组权限第7-9确定文件其他用户的权限r w x权限1.rwx 作用在文件下[r] read 表示可读。[w]write 表示可写 但不表示可以删除这个文件夹,只是可以写,删除文件夹必须在目录下有w权限...

2021-09-16 21:56:39 251 1

原创 Linux 入门day4

文件指令第二弹1.echo 指令这个指令没什么好说的 就是你输入什么在控制台就会输出什么2.head 指令用于显示文件开头的十行(默认情况下)head -n 数字 就是显示在文件开头的自定义行不难看出这里就是区别。3.tail tail 同head 一样语法也一样就是顾名思义一个是显示前几行,一个是显示后几行。tail -f 可以实时监控文件变化。如果有变化的话就会实时反映出来。4.> >> 指令>输出重定向 (覆盖写)>&.

2021-09-15 22:26:06 96

原创 Linux 入门day3 (IP地址报错以及部分文件目录)

IP地址没了咋办<BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000当时本该有IP地址的地方却出现了这个报错,xshell也连接不上,十分焦虑。解决方法:停止网卡设置disable再启动在终端里依次输入下面 systemctl stop NetworkManager systemctl disable NetworkManager service n

2021-09-14 22:27:34 391

原创 Linux 入门day2

1.远程登陆Linux服务器Why :公司开发的时候需要远程的登录开发。How :通过Xshell 和xftpXshell 的配置首先我们先应该得知虚拟机上的IP地址到底是什么,用ip-a获知。这样就找到了IP地址,再打开xshell在新建里输入名称和主机号,这里值得注意的一点是,IP地址一定要正确无误的填写在主机那一栏,否则会出错,(名称无所谓)。当然还有其他的选项要填,基本上就是用户和密码,要和虚拟机上的用户和密码对应起来。2.Vim的使用 环境搭建好...

2021-09-12 17:29:17 108

原创 Linux 入门

【小白入门 通俗易懂】2021韩顺平 一周学会Linux_哔哩哔哩_bilibili我所有关于Linux的文章都是基于这个网课,强力推荐。第一 环境搭建需要两个东西下载,VMware和centos.VMware 可以从下面的链接下载系统工具-NoCmd简单还有激活码能获取正版使用权。具体的下载没啥好说的无脑下一步即可。centos 我下的是7版本http://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD

2021-09-11 21:19:39 653

原创 整数sql注入(sqlmap)

首先讲一下sqlmap 很好用的一个东西,就几个函数能解决很多基本问题。这是基本教学(简单易上手)sqlmap 使用教程 - 简书第一步先查找出有什么漏洞具体的就是 在网址前 加上 -u(前面有空格),这样做就是查找漏洞,而且这次我在后面加入了 --batch (我是为了避免系统后面会问很多yes or no 我不知道怎么回答)。此时漏洞已经查出来。第二步我们就要去找数据库的位置。后面加入的--dbs 是找出所有的数据库。如下图但我们并不知道他使用...

2021-09-09 20:42:39 261

K-means算法简介及代码过程

K-means算法简介及代码过程

2022-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除