- 博客(27)
- 资源 (13)
- 收藏
- 关注

原创 R语言做主成分分析在我国城镇居民家庭平均每人全年消费性支出分析中的应用
2019-2020学年第2学期 统计数据建模 课程论文 题 目: **R语言做主成分分析在我国城镇居民家 庭平均每人全年消费性支出分析中的应用** 姓 名: 张明彦 学 号: 170314...
2020-08-02 01:10:54
10792
3
原创 05、hive数据仓库介绍及搭建
Hive起源于Facebook(一个美国的社交服务网络)。Facebook有着大量的数据,而Hadoop是一个开源的MapReduce实现,可以轻松处理大量的数据。 但是MapReduce程序对于Java程序员来说比较容易写,但是对于其他语言使用者来说不太方便。此时Facebook最早地开始研发Hive,它让对Hadoop使用SQL查询(实际上SQL后台转化为了MapReduce)成为可能,那些非Java程序员也可以更方便地使用。hive最早的目的也就是为了分析处理海量的日志。 Hi
2022-06-24 14:25:26
2575
原创 04、Hbase介绍及搭建
HBase是一个分布式的、面向列、非关系型的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统,不适用于提供实时计算; HBase是可以提供实时计算的分布式数据库,数据被保存在HDFS分布式文件系统上HBase HRegion servers集群中的所有的region的数据在服务器启动时都是被打开的,相应的这就在一定程度上加快系统响 应;而Hadoop中的block中的数
2022-06-24 13:39:44
686
原创 03、hadoop集群安装
hadoop的思想来源是Google,Google曾经面对一个问题,大量的网页怎么存储,怎么快速搜索的问题,于是三篇论文诞生了GFS、Map-Reduce、BigTable,这三篇论文的开源实现版本分别就是hadoop的hdfs、mapreduce和hbase,分别对应大数据存储、大数据分析计算、列式非关系型数据库。 hadoop本身就是一个软件,一个用java写好的软件,只要你电脑上装好了jdk,就能运行。 hadoop1.0软件本身有两个模块,hdfs和mapreduce,hadoop2
2022-06-24 10:18:53
423
原创 02、基础环境搭建及Zookeeper介绍与搭建
写在前面:在查看本文之前,需要先学习01、VMware中Centos7安装教程搭建好虚拟机以及需要学会克隆虚拟机。因为整个完全分布式集群的搭建至少需要3台机器,需要克隆2台命名为slave1与slave2两个从节点,而被克隆的主机称为主节点master。本次集群搭建共有三个节点,包括一个主节点master,和两个从节点slave1和slave2。具体操作如下:1.以主机点master为例,首次切换到root用户:su2.修改主机名为master: hostnamectl set-hostname ...
2022-06-23 18:06:54
876
原创 01、VMware中Centos7安装教程
一.安装前准备VMware14.0https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.htmlCentOS 7.2 64位镜像http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso二.在VMware中创建虚拟机1.打开VMware,点击文件,选择新建虚拟机(或者直接使用Ctrl+N快捷键),然后选择自定
2022-06-22 16:42:14
151
原创 ARIMA 模型的建立
一、实验目的 了解 ARIMA 模型的特点和建模过程,了解 AR,MA 和 ARIMA 模型三者之间的区别与联系,掌握如何利用自相关系数和偏自相关系数对 ARIMA 模型进行识别,利用最小二乘法等方法对 ARIMA 模型进行估计,利用信息准则对估计的 ARIMA 模型进行诊断,以及如何利用 ARIMA 模型进行预测。掌握在实证研究如何运用 Eviews 软件进行 ARIMA 模型的识别、诊断、估计和预测。 二、基本概念所谓 ARIMA 模型,是指将非平稳时间序列转化为平稳时间序列,然后将平稳
2022-06-21 10:31:12
549
原创 python数据分析-numpy学习
什么是数据分析?数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。使用python做数据分析的常用库 numpy 基础数值算法 scipy 科学计算 matplotlib 数据可视化 pandas 序列高级函数 numpy概述 Numerical Python,数值的Python,补充了Python语言所欠缺的数值计算能力。 Numpy是其它数据分析及机器学习库的底层库。
2022-05-23 17:11:02
664
原创 时间序列分析在我国社会消费品零售总额预测中的应用
摘 要社会消费品零售总额是指企业通过交易售给个人、社会集团,非生产、非经营用的实物商品金额,以及提供餐饮服务所取得的收入金额。社会消费品零售总额是表现国内消费需求最直接的数据。社会消费品零售总额是国民经济各行业直接售给城乡居民和社会集团的消费品总额。它是反映各行业通过多种商品流通渠道向居民和社会集团供应的生活消费品总量,是研究国内零售市场变动情况、反映经济景气程度的重要指标。本文以我国社会品零售总额的预测为背景,利用时间序列分析对我国1969-2018年社会消费品零售总额建立AMIMA模型,较...
2022-05-02 11:27:27
1204
原创 Tableau学习教程(万字保姆级教程)
Tableau学习教程(保姆级教材,学不会私信留言来找我) 从BI系统开发的角度来学习tableau工具,更学会报表开发的流程内含学习使用数据源,tableau打包工作簿,可直接提取使用 ...
2022-05-01 22:18:28
50239
36
转载 Pandas速查表
1.导入库包import pandas as pd # 最新为 1.4.1 版本 (2022-02-12)import numpy as npimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline2.导入数据3# 从 CSV 文件导入数据pd.read_csv('file.csv', name=['列名','列名2'])# 从限定分隔符的文本文件导入数据pd.read_table(filena
2022-03-18 11:21:25
626
原创 kettle学习-01查找表映射
1.1 实验目的 利用 Kettle 的“合并排序”等组件,构建面向对象分析的数据仓库。 1.2 实验要求 熟练掌握“排序记录”,“合并排序”,“字段选择”等组件的使用,构建 面向对象分析的数据表格。 1.3 实验原理 通过“排序记录”对多张表格的外键进行排序,然后通过“记录集连接”进 行多表连接,再通过“字段选择”选择合适的字段输出到表格。 1.4 实验步骤 1.4.1 创建转换:点击,在下拉菜单中点击选择这样创建了一 个转换文件。我们点击图片,重命名该转换文件,.
2022-03-09 16:22:18
517
原创 Hive学习:数据仓库的建立
【实验目的】熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用;了解大数据处理的基本流程;熟悉数据预处理方法;熟悉在不同类型数据库之间进行数据相互导入导出。【实验原理】数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。Hive是一个构建于Hadoop顶层
2022-03-09 15:09:58
9009
原创 Tableau快速表计算与表计算函数
快速表计算 Tableau内置了部分常用的表计算,称之为 “快速表计算”,这些快速表计算可以视为是预设好的表计算表达式,我们也可以通过把视图的快速表计算拖入度量中查看具体的表计算公式。比如说,我们在实例中添加了“总额百分比Percent of Total”,然后可以拖入度量生成字段,之后查看它的计算公式,如下图:A 常见快速表计算第一类的快速表计算与日期无关,常见的七种快速表计算的基本对应关系如下:汇总 Running Total=RUNNING_SUM(SUM([S..
2022-02-24 15:08:40
5049
原创 SQL练习题简单篇
SQL语句练习题附建表语句,学不会我把我手剁下来寄给你实验一<数据定义>(1)创建学生管理数据库create database xsglon (name=xsgl,filename='E:\SQL\xsgl.mdf',size=5mb,maxsize=50mb,filegrowth=1mb);–(2)分别创建3个表并插入数据use xsgl;create table student(Sno char(10) primary key,Sname char(8),S
2021-07-29 16:27:57
3161
原创 Tableau学习之表格动态表头实现
问题引入如下图所示,使得红色方框中的表头随着年份下拉框的变动而变动,别纠结表格如何制作,下期博客讲解。说明:当我年份筛选器选择2020年,表头出现2020,当年份筛选器选择2021年,表头出现2021 。实现1.将现在的固定表头隐藏,如下图:2.创建参数。右点击左侧空白区域,点击创建参数同理在创建参数ACT.。3.创建计算字段4。新建工作表,命名为fcst,将新间字段FCST1拉到标记栏中,选择年份筛选框并显示。ACT1同理。5.设置仪表盘将3个工作表全部加载到仪表盘,然后设置
2021-04-28 17:53:15
1853
原创 Tableau学习之表格占比实现
问题引入如下图excel表格数据求各个员工的销量占比?要求1.在不使用tableau函数的情况下实现2.利用tableau函数创建新字段实现3.对某一个员工不做占比,销量总和中不含这个员工的销量,占比中默认为100%,占比总和中也不含这个员工的占比。实现1.在不使用tableau函数的情况下实现数据加载就不做过多的赘述复制一份度量栏度量销量,更名为占比,放到标记栏中,选择文本点击度量值栏中占比下拉箭头,选择快速表计算,选择合计百分比。然后再表格中右击表头重命名为占比,就ok了。
2021-04-27 10:57:41
2629
原创 搭建Linux环境下的Spark环境
一、准备1、系统:ubuntu2、 安装包:Spark2.3.3+Java8+Scala2.11二、步骤1、官网下载Spark 安装包spark-2.3.3-bin-hadoop2.7.tgz2、官网下载scala安装包scala-2.11.12.tgz3、官网下载JDK安装包jdk-8u201-linux-x64.tar.gz4、Spark相关配置4.1安装SSH,附代码以及截图sudo apt-get updatesudo apt-get install openssh-server
2020-09-15 15:24:56
357
原创 销售数据预处理
实验目的:1.熟悉Linux系统、MySQL、Insight等系统和软件的安装和使用;2.了解大数据处理的基本流程;3.熟悉数据抽取、转换、装在方法;4.熟悉在不同类型数据库之间进行数据相互导入导出实验内容:本实验对两个数据源:employee_info_table.sql代表员工信息表;sales_info_table.sql表示销售信息表做数据预处理。实验过程:1.实验准备:1.1启动数据库:sudo -iservice mysql startmysql -uroot -p123
2020-08-20 00:56:56
863
1
原创 Tableau制作我国疫情数据可视化报表
实验概述:利用已知数据源(2019-cNoV),在Tableau软件中制作数据可视化图表(数据来源世卫组织)实验内容:软件的熟练安装;加载2019-cNoV(截至到2019)数据;制作工作表1(全国确诊病例表);制作工作表2(湖北确诊病例表);制作工作表3(全国城市确诊病例排名表);制作工作表4(确诊人员趋势表),以时间维度制作;制作工作表5(全国城市出院率趋势图)制作仪表板实验过程:一、加载数据二、制作工作表将维度栏中“省份”右击选择“地理角色”在选择“省/市/自治区”
2020-07-31 00:23:23
3498
6
Mysql实战深层原理讲解
2022-06-01
Tableau数据分析实战(进阶篇-2)
2022-05-24
tableau数据分析实战(进阶篇-1)
2022-05-24
tableau数据分析实战(基础-2)
2022-05-24
Tableau数据分析实战(基础-1)
2022-05-24
360套excel可视化看板
2022-05-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人