自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

积一时之步,臻千里之遥程

努力是选择的基石,选择是努力的方向,但现在看来,选择比努力更重要!

  • 博客(19)
  • 资源 (6)
  • 收藏
  • 关注

原创 招标信息数据整理

import timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport openpyxlfrom fake_useragent import UserAgentfrom urllib.parse import urlencodeimport pandas as pdimport o

2021-04-27 08:55:16 777 1

原创 【Hive学习笔记】分区表与分桶表

1 分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。例,前面的sort

2021-04-19 22:54:54 502

原创 Spark概述及快速上手之WordCount案例

学习笔记文章目录1 Spark 概述1.1 Spark是什么1.2 Spark and Hadoop(Mapleduce )1.3 Spark核心模块2 Spark快速上手2.1 WordCount案例2.1.1 实现方法一2.1.2 实现方法二2.2 WordCount案例中的Spark实现1 Spark 概述1.1 Spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark and Hadoop(Mapleduce )Hadoop的 Mapl.

2021-04-18 10:16:13 416

原创 【Hive学习笔记】数据定义语言(DDL )

学习笔记文章目录一、数据库1 创建数据库2 查询数据库3 修改数据库4 删除数据库二、表1 创建表2 管理表(内部表)3 外部表4 管理表和外部表的使用场景5 管理表与外部表的互相转换6 建表时指定字段分隔符7 修改表7.1 重命名表7.2 增加/修改/替换列信息8 删除表一、数据库1 创建数据库CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment][LOCATION hdfs_path][WITH .

2021-04-17 22:25:33 387 2

转载 基于Hadoop的数据仓库Hive 基础知识

转载自:namelessml原文链接:[完]基于Hadoop的数据仓库Hive 基础知识 Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1.1 数据仓库概念 数据仓库(Data Warehou

2021-04-17 15:15:29 544

原创 Hive杂记

学习Hive编程指南笔记1 MapReduceMapReduce是一种计算模型,该模型可将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务。这些任务的计算结果可以合并在一起来计算最终的结果。MapReduce将计算过程分为两个阶段:Map和Reduce1)Map 阶段并行处理输入数据---------》分2)Reduce 阶段对Map结果进行汇总----------》合在MapReduce计算框架中,某个键的所有键-值对都会被分发到同一个reduce操作中。确切地说,这个.

2021-04-17 14:39:18 207

原创 Shell编程

对于大数据程序员来说,需要编写Shell程序来管理集群。1 Shell是什么?Shell是一个命令行解释器,它为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序,用户可以用Shell来启动、挂起、停止甚至是编写一些程序。可以理解为电视机的遥控器参考知乎2 Shell脚本的执行方式脚本格式要求1)脚本以 #!/bin/bash开头2)脚本需要有可执行权限创建一个Shel脚本,输出hello world!保存:wq给一个可执行权限脚本的常用执行方式方式1

2021-04-14 15:24:41 235 2

原创 Linux之定时任务调度 与 磁盘分区、挂载 与 网络配置 与 进程/服务管理 与 RPM与yum

定时任务调度crond任务调度crontab进行定时任务的设置概述任务调度:是指系统在某个时间执行的特定的命令或程序。任务调度分类:1.系统工作:有些重要的工作必须周而复始地执行。如病毒扫描等2.个别用户工作:个别用户可能希望执行某些程序,比如对mysql数据库的备份。基本语法 :crontab [选项]常用选项快速入门设置任务调度文件:/etc/crontab设置个人任务调度。执行crontab -e 命令。接着输入任务到调度文件如:*/1 * * * * ls-l /et

2021-04-12 21:42:45 248

原创 Linux之组管理与权限管理与进程管理

学习笔记文章目录一、Linux组基本介绍1.1 文件/目录 所有者二、权限的基本介绍2.1 权限的管理2.1.1 修改权限 -chmod2.1.2 修改文件所有者-chown2.1.3 修改文件所在组-chgrp一、Linux组基本介绍前面说到Linux系统是一个多用户多任务的操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。即 在linux中的每个用户必须属于一个组,不能独立于组外。例如,目前有三个用户,每个用户至少属于一个组.

2021-04-12 20:52:52 234

原创 Linux之实用指令

1 指定运行级别基本介绍:运行级别说明:0:关机1:单用户【找回丢失密码】2:多用户状态没有网络服务3:多用户状态有网络服务4:系统未使用保留给用户5:图形界面6:系统重启常用运行级别是3和5,要修改默认的运行级别可改文件/etc/inittab的id:5:initdefault:这一行中的数字命令:init[012356]切换到指定运行级别的指令:init[012356]应用实例:案例1:通过init来切换不同的运行级别,比如动5-3,然后关机。进入到3:多用户状态

2021-04-11 15:05:20 107

原创 Linux之用户管理

文章目录一、基本介绍1.1 添加用户1.2 指定/修改密码1.3 删除用户1.4 查询用户信息指令1.5 切换用户1.6 查看当前用户/登录用户1.7 用户组一、基本介绍Linux系统是一个多用户多任务的操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。例如,目前有三个用户,每个用户至少属于一个组1.1 添加用户基本语法:useradd [可选] 用户名应用案例1)案例1:添加一个用户xiaoming细节说明1)当创建用户成功后,会

2021-04-11 11:58:39 234

原创 Linux之vi和vim的基本介绍、关机&重启命令

一、vi和vim的基本介绍1.1 概述所有的Linux系统都会内建vi文本编辑器。Vim具有程序编辑的能力,可以看做是vi的增强版本,可以主动的以字体颜色辨别语法的正确性,方便程序设计。代码补完、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用。1.2 vi和vim常用的三种模式正常模式: 可以使用快捷键以vim打开一个档案就直接进入一般模式了(这是默认的模式)。在这个模式中,可以使用「上下左右』按键来移动光标,你可以使用「删除字符』或「删除整行」来处理档案内容,也可以使用「复

2021-04-11 10:49:50 554

原创 使用Xshell远程登录Linux系统与远程上传下载文件(Xftp )以及SecureCRT的安装和使用

文章目录1 为什么要远程登录Linux系统2 Xshell 介绍2.1 安装Xshell52.2 连接远程主机3 远程上传下载文件(Xftp )1 为什么要远程登录Linux系统或者比如通过什么软件呢?XshellSecureCRT2 Xshell 介绍说明: Xshell 是目前最好的远程登录到Linux操作的软件,流畅的速度并且完美解决了中文乱码的问题, 是目前程序员首选的软件。Xshell 是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Wi

2021-04-10 21:54:18 3691 1

原创 Linux 安装及目录结构

学习笔记…TT一、安装VM和Centos推荐视频安装:VMware Workstation Pro 16.1.1https://www.bilibili.com/video/BV1ZW411k7Qh?p=4博客笔记安装Linux学习之路(一):安装VM和CentosVM和Linux的安装VMware里面安装CentOS二、Linux 目录结构linux的文件系统是采用级层式的树状目录结构,在此结构中的最上层是根目录“/”,然后在此目录下再创建其他的目录。解释具体的目录说明引.

2021-04-10 20:09:14 158

原创 Hadoop基础1

文章目录一、大数据概述二、Hadoop是什么2.1 HDFS架构概述(大硬盘)2.2 YARN架构概述(资源调度)2.3 MapReduce架构概述(计算)2.4 大数据技术生态体系一、大数据概述大数据(Big Data) :指无法在一定时间范围内用常规软件工具进行捕捉管理和处理的数居集合,是需要新处理模式才能具有更强的决策力、洞穿发现力和流程优化能力的海量、高增长率和多样化的信息资产主要解决:海量数据的存储和海量数据的分析计算问题。二、Hadoop是什么(1)Hadoop是一种分析和处理大数

2021-04-10 19:15:07 201

转载 数据分析:杜邦分析法

推荐:【报表分析篇】杜邦分析法只是一张四六级成绩单作者:Cherich_sun方糖冰红茶原文链接:数据分析の杜邦分析法 好了,杜邦分析法在财务上是把净资产收益率作为一个总指标,然后对其进行分解成分其他财务指标,以此来评估企业的财务状况和经营业绩。  净资产收益率主要分解为一下三部分: 权益乘数:反映企业的负债状况,涉及到资产负债率,即总负债与总资产的比率。一般企业负债率高,说明企业能利用资本

2021-04-08 16:58:12 772

转载 利用 Python 分析了某化妆品企业的销售情况

作者:Cherich_sun来源:公众号「杰哥的IT之旅」ID:Jake_Internet原文链接:利用 Python 分析了某化妆品企业的销售情况,我得出的结论是?【导语】本篇文章是关于某化妆品企业的销售分析。从分析思路思路开始带大家一步步的用python进行分析,找出问题,并提出解决方案的整个流程。需求:希望全面了解此某妆品企业的销售情况,帮助企业运营领导层了解企业整体销售运营情况及商品销售情况,为该企业的营销策略提供相对应的建议和销售策略。业务分析流程1、场景(诊断现状)对象:用户;销.

2021-04-08 16:10:50 525 1

原创 绘图杂记【19】Echarts 非常好看的数据可视化

1234567891011121314151617

2021-04-07 22:54:15 381

原创 SQL变量的使用(自定义变量)

文章目录一、系统变量1.1 全局变量1.2 会话变量二、自定义变量(重点)2.1 用户变量①声明并初始化②赋值(更新变量的值)③使用(查看变量的值)★2.2 局部变量三、案例3.1 案例13.2 案例2四、用户变量和局部变量的对比一、系统变量说明:变量由系统定义,不是用户定义,属于服务器层面注意:全局变量需要添加GLOBAL关键字,会话变量需要添加SESSION关键字,如果不写,默认会话级别使用步骤查看所有系统变量SHOW GLOBAL VARIABLES;#全局变量SHOW SES.

2021-04-02 09:29:44 30923 1

文件迁移工具-原位置留下快捷方式,不破坏文件

Windows 系统上的文件迁移工具,迁移后,原位置留下快捷方式,不破坏文件,可以自由移到其他文件目录。

2022-10-12

对比条形图主城九区.xlsx

对比条形图主城九区.xlsx

2022-03-18

世界各国中英文对照.xlsx

世界各国中英文对照.xlsx

2022-03-18

合并excel小软件.zip

就简单的把相同格式的excel表进行合并

2021-11-03

第二阶段SFA回归数据模板.xls

DEA第二阶段计算表格

2021-01-02

R语言期末试题R语言期末试题

R语言期末试题

2020-12-30

KNN实现鸢尾花分类

knn的python代码 #样本数据150*4二维数据,代表150个样本, #每个样本4个属性分别为花瓣和花萼的长、宽

2019-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除