自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(173)
  • 资源 (1)
  • 收藏
  • 关注

原创 分享一套基于Java+gui+Mysql电影院售票管理系统毕业设计

分享一套基于Java+gui+Mysql电影院售票管理系统毕业设计。人工售票的手续繁琐,效率低下给与人们的感官十分不好以及对管理工作带来了诸多不便,影院缺少一套完整的售票系统,因此必须开发影院售票系统。在工作人员具备一定的计算机操作能力的前提下,特此编写售票系统软件以提高影院的管理效率。开发出一套简洁有效的售票系统从而提高影院的售票以及管理效率。

2024-07-05 17:49:13 194

原创 informatica powercenter 9.6.1测试迁移数据

一、Informatica客户端之Repository、Designer、Workflow、Mnoitor1.1 打开 Informatica powercenter Repository连接配置好的数据库选择rep-文件夹-创建 后保存二、打开Informatica powercenter Designer,配置源表和目标表点击工具-source Analyzer 配置源表点击Target Designer配置目标表点击映射,填写映射名称点击第Mapping des

2021-01-14 10:39:47 612 1

原创 informatica powercenter 9.6.1安装与配置图文详细教程(适应于Windows系统)

一、Informatica PowerCenter简介Informatica PowerCenter,简称 Infa,是一款非常强大的ETL工具,支持各种数据源之间的数据抽取、转换、加载等数据传输,多用于大数据和商业智能等领域。一般应用企业根据自己的业务数据构建数据仓库,通过 Infa 在业务数据和数据仓库间进行 ETL 操作。其中 E(Extract)指数据抽取,T(Transform)指数据转换,L(Load)指数据加载。在挖掘到的这些零碎无规律的原始数据的基础上,进行维度的数据分析,找到用户的习惯和

2021-01-14 10:01:35 1398

原创 Sqoop导入导出相关问题

Sqoop导出脚本1)编写Sqoop导出脚本在/opt/bin目录下创建脚本sqoop_export.shvim sqoop_export.sh在脚本中填写如下内容#!/bin/bashdb_name=gmallexport_data() {/opt/sqoop/bin/sqoop export \--connect "jdbc:mysql://hadoop001:3306/${db_name}?useUnicode=true&characterEncoding=utf-8"

2020-12-11 15:00:55 242

原创 大数据之Sqoop

一、sqoop介绍Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二、Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。三、Sqoop安装

2020-12-11 14:33:41 145

原创 大数据技术之 Azkaban

1.1 什么是 AzkabanAzkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 Dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。1.2 为什么需要工作流调度系统1)一个完整的数据分析系统通常都是由大量任务单元组成:Shell 脚本程序,J

2020-12-10 11:41:51 183 1

原创 hive之collect_set函数和日期处理函数

collect_set函数1)创建原数据表hive (test)>drop table if exists test_collect_set_stud;create table test_collect_set_stud (name string, area string, course string, score int);2)向原数据表中插入数据hive (test)>insert into table test_collect_set_stud values('zhang3

2020-12-07 11:49:21 557

原创 hadoop 配置LZO压缩

hadoop 配置LZO压缩1)先下载lzo的jar项目https://github.com/twitter/hadoop-lzo/archive/master.zip2)下载后的文件名是hadoop-lzo-master,它是一个zip格式的压缩包,先进行解压,然后用maven编译。生成hadoop-lzo-0.4.20.jar。3)将编译好后的hadoop-lzo-0.4.20.jar 放入/opt/hadoop/share/hadoop/common/4)同步hadoop-lzo-0.4.

2020-12-04 16:57:08 132

原创 shell脚本之zookeeper集群启动停止脚本

1、集群服务器hadoop001,hadoop002,hadoop003一、在hadoop001的/opt目录下新建脚本cp /optvim zk.sh#!/bin/shcase $1 in"start"){ echo "----------启动zookeeper集群----------" for host in hadoop001 hadoop002 hadoop003 do echo "开始启动 $host....." ssh -q $h

2020-11-25 15:43:24 129

原创 使用yum 安装CDH版本hue

Hue 其实就是一个可视化平台, 主要用于浏览 HDFS 的文件, 编写和执行 Hive 的 SQL, 以及 Impala 的 SQL,查看数据库中数据等, 而且 Hue 一般就作为 CDH 数据平台的入口, 所以装了 CDH 而不装 Hue 会觉得少了点什么1、Hue 组件安装2、配置 Hue3、启动 HueHue 只在 cdh01 上安装即可Step 1: Hue 组件安装使用 Yum 即可简单安装yum -y install hueStep 2: 配置 HueHue .

2020-11-02 18:15:41 351

原创 使用yum 安装CDH版本 Impala

Kudu 没有 SQL 解析引擎, 因为 Cloudera 准备使用 Impala 作为 Kudu 的 SQL 引擎, 所以既然使用Kudu 了, Impala 几乎也是必不可少的, 安装 Impala 之前, 先了解以下 Impala 中有哪些服务服务作用CatalogImpala 的元信息仓库, 但是不同的是这个 Catalog 强依赖 Hive 的 MetaStore, 会从 Hive 处获取元信息StateStoreImpala 的协调节点, 负责异常恢复I.

2020-11-02 16:01:05 187 1

原创 使用yum 安装CDH版本 kudu

安装 Kudu 依然使用我们已经配置好的 Yum 仓库来进行, 整体步骤非常简单, 但是安装上分为 Master 和 Tablet server1、安装 Master server安装软件包配置启动2、安装 Tablet server安装软件包配置启动集群规划节点职责cdh01Master servercdh02Tablet servercdh03Tablet serverStep 1: 安装 Master server 的软件包.

2020-11-02 15:31:07 190

原创 使用yum 安装CDH版本 Hive

因为 Hive 需要使用 MySQL 作为元数据库, 所以需要在 MySQL 为 Hive 创建用户, 创建对应的表安装 Hive 软件包在 MySQL 中增加 Hive 用户配置 Hive初始化 Hive 在 MySQL 中的表结构启动 Hive因为我们并不需要 Hive 的 HA, 所以在单机部署 Hive 即可Step 1: 安装 Hive 软件包安装 Hive 依然使用 CDH 的 Yum 仓库yum install -y hive hive-met.

2020-10-27 16:15:08 335

原创 Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the

通过yum安装cdh版hive后,启动hive报错:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path解决方案:在hive的配置文件里加如hadoop的路径即可vim /etc/hive/conf/hive-env.sh export HADOOP_HOME=/usr/lib/hadoop...

2020-10-27 15:53:33 5136

原创 通过yum安装 MySQL

安装 MySQL 有很多方式, 可以直接准备压缩包上传解压安装, 也可以通过 Yum 来安装, 从方便和是否主流两个角度来看, 通过 Yum来安装会比较舒服, MySQL 默认是单机的, 所以在一个主机上安装即可, 我们选择在 cdh01 上安装, 安装大致就是两个步骤1、安装2、配置Step 1: 安装因为要从 Yum 安装, 但是默认的 Yum 源是没有 MySQL 的, 需要导入 Oracle 的源, 然后再安装下载 Yum 源配置wget http://repo.mysql.

2020-10-27 10:50:19 113

原创 使用yum 安装CDH版本 Hadoop

使用yum 安装CDH版本 Hadoop步骤:安装软件包配置 HDFS配置 Yarn 和 MapReduce集群规划主机名职责cdh001Yarn ResourceManager, HDFS NameNode, HDFS SecondaryNamenode, MapReduce HistroyServer, Hadoop Clientscdh002Yarn NodeManager, HDFS DataNodecdh003Yarn NodeManager,

2020-10-26 16:50:06 662

原创 使用yum 安装CDH版本 Zookeeper

Step 1: 安装 Zookeeper和以往不同, CDH 版本的 Zookeeper 是经过定制的, 所以可以直接通过 Yum 来安装, 使用刚才所搭建的 Yum 仓库, 在所有节点上执行如下命令yum install -y zookeeper zookeeper-serverCDH 版本的所有工具都会遵循 Linux 的习惯放置 Log 和 Data, 所以需要先创建 Zookeeper 的数据目录, 并且所有者指定给 Zookeeper 所使用的用户, 如下命令在所有节点执行mkd

2020-10-23 16:14:03 574

原创 创建本地 Yum 仓库

创建本地 Yum 仓库的目的是因为从远端的 Yum 仓库下载东西的速度实在是太渣, 然而 CDH 的所有组件几乎都要从 Yum 安装, 所以搭建一个本地仓库会加快下载速度1、下载 CDH 的所有安装包2、生成 CDH 的 Yum 仓库3、配置服务器, 在局域网共享仓库Step 1: 下载 CDH 的安装包创建本地 Yum 仓库的原理是将 CDH 的安装包下载下来, 提供 Http 服务给局域网其它主机(或本机), 让其它主机的 Yum 能够通过 Http 服务下载 CDH 的安装包, 所以需要先

2020-10-23 14:59:30 124

原创 cdh安装hadoop-2.5.0-cdh5.3.6时出现Unable to load native-hadoop library for your platform解决方法

在执行hadoop命令的时候出现如下错误,不能加载Hadoop库WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable检查发现本地并没有库进入Hadoop下的\lib\native发现是空文件夹http://dl.bintray.com/sequenceiq/sequenceiq-bin/下

2020-10-18 23:30:34 263

原创 CDH版本的zookeeper环境搭建

1、下载zookeeper安装包wget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz2、解压tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz 3、配置环境变量:vim /etc/profile# set zk envexport ZK_HOME=/opt/zookeeper-3.4.5-cdh5.7.0export PATH=${ZK_HOME}/bin:$

2020-10-18 16:37:58 274

原创 初始化安装集群服务器

1、创建虚拟机2、安装系统3、复制三台虚拟机4、配置时间同步服务5、配置主机名6、关闭 SELinux7、关闭防火墙8、重启9、配置免密登录10、安装 JDK重启命令:1、reboot2、shutdown -r now 立刻重启(root用户使用)3、shutdown -r 10 过10分钟自动重启(root用户使用) 4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用)如果是通过shutdown命令设置重启的话,可以用shutdown -

2020-10-18 00:36:13 119

原创 Specified key was too long; max key length is 767 bytes。

问题:spark sql连接hive的元数据(mysql库)时报错:Specified key was too long; max key length is 767 bytes。解决:其实是mysql数据字符集问题,只要修改mysql中hive元数据库的字符集便可,即alter database dbname character set latin1;可是设置后启动时仍然报错,启动命令如下:./spark-shell --master local[2] --jars ~/software/mys

2020-09-12 17:15:15 195

原创 pandas案例二(统计电影分类情况)

统计电影分类情况import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltdf = pd.read_csv("D:/test/youtube_video_data/IMDB-Movie-Data.csv")print(df.head())print(df.info())#分类print(df["Genre"])"""思路:重新构造一个全为0的数组,列名为全部展开的分类,行为原来数据的长度,如果

2020-08-06 10:55:30 795

原创 pandas之缺失数据的处理(五)

import pandas as pdimport numpy as npt1 = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("WXYZ"))print(t1)t1.iloc[1:,:2]=np.nanprint(t1)判断当前数组有没有nan 方式一:为nan的返回True#判断当前数组有没有nan 方式一:为nan的返回Trueprint(pd.isnull(t1))判断当前

2020-08-06 10:48:58 122

原创 pandas案例(一)

案例:对于这一组电影数据,如果我们想runtime的分布情况,应该如何呈现数据?import pandas as pdfrom matplotlib import pyplot as plt#pandas读取外部数据df = pd.read_csv("D:/test/youtube_video_data/IMDB-Movie-Data.csv")print(df.head())print(df.info())#获取时间列数据runtime_data = df["Runtime (Mi

2020-08-06 10:39:41 669

原创 pandas之DataFrame 二维数组创建,行、列索引(三)

DataFrame对象既有行索引,又有列索引行索引:表明不同行,横向索引,叫index,0轴,axis=0列索引:表明不同列,纵向索引,叫columns,1轴,axis=1创建DataFrame 二维数组import pandas as pdimport numpy as np# 创建DataFrame 二维数组t1 = pd.DataFrame(np.arange(12).reshape(3,4))print(t1)创建DataFrame 二维数组,自定义行和列索引# 创建Data

2020-08-04 18:07:17 6266

原创 pandas之读取外部数据(二)

pandas 读取外部数据df = pd.read_csv("D:/test/youtube_video_data/dogNames2.csv")print(df.head())print(df.info())统计狗的名字次数最高的 排序df = df.sort_values(by="Count_AnimalName",ascending=False)print(df)统计狗的名字大于800的数据df = df[df["Count_AnimalName"]>800]pr

2020-08-04 17:39:33 140

原创 pandas之Series 一维数组(一)

pandas的常用数据类型1.Series 一维,带标签数组2.DataFrame 二维,Series容器创建Series 一维数组import pandas as pd# 创建Series 一维数组t1 = pd.Series([1,2,3,4,5,6])print(t1)0 11 22 33 44 55 6dtype: int64Series 一维数组的类型# Series 一维数组的类型print(type(t1)) //&lt

2020-08-04 17:35:33 1462

原创 numpy 简单练习(五)

练习:英国和美国各自youtube1000的数据结合之前的matplotlib绘制出各自的评论数量的直方图US_video_data_numbers.cs 数据分别是 点击 喜欢 不喜欢 评论us_path = "D:/test/youtube_video_data/US_video_data_numbers.csv"uk_path = "D:/test/youtube_video_data/GB_video_data_numbers.csv"t1 = np.loadtxt(us_path,deli

2020-07-28 16:22:29 273

原创 numpy之数组的拼接(水平、竖直)(四)

数组的拼接数组t1t1 = np.arange(12).reshape(2,6)print(t1)[[ 0 1 2 3 4 5] [ 6 7 8 9 10 11]]数组t2t2 = np.arange(12,24).reshape(2,6)print(t2)[[12 13 14 15 16 17] [18 19 20 21 22 23]]数组t1 竖直拼接 数组t2 vstackprint(np.vstack((t1,t2)))[[ 0 1 2 3

2020-07-28 16:09:13 1552

原创 numpy之索引、切片、三目运算(三)

import numpy as npt = np.arange(12).reshape(3,4)print(t)[[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11]]取第二行print(t[1]) //[4 5 6 7]取第二列print(t[:,1]) //[1 5 9]取多行print(t[1:3])[[ 4 5 6 7] [ 8 9 10 11]]取多列print(t[:,1:4])[[ 1 2 3] [ 5

2020-07-28 15:51:05 200

原创 numpy之读取数据、转置(二)

轴# 轴 2表示0轴,5表示1轴t = np.arange(0,10).reshape((2,5))print(t)[[0 1 2 3 4] [5 6 7 8 9]]numpy 读取数据us_file_path = "D:/test/youtube_video_data/US_video_data_numbers.csv"t1 = np.loadtxt(us_file_path,delimiter=",",dtype="int")print(t1)[[4394029 32005

2020-07-28 15:43:53 267

原创 numpy之创建数组、查看数组形状、数组的计算(一)

[0.35531847 0.33282092 0.6839363 0.39138503 0.21946102 0.22605784 0.56158056 0.66337016 0.75136875 0.19762917]

2020-07-28 15:25:33 1657

原创 数据分析之matplotlib 直方图(七)

假设你获取了250部电影的时长(列表a中),希望统计出这些电影时长的分布状态(比如时长为100分钟到120分钟电影的数量,出现的频率)等信息,你应该如何呈现这些数据?a=[131, 98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115, 99, 136, 126,

2020-07-14 10:04:46 266

原创 数据分析之matplotlib 条形图(六)

1、假设你获取到了2017年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据?a = [“战狼2”,“速度与激情8”,“功夫瑜伽”,“西游伏妖篇”,“变形金刚5:最后的骑士”,“摔跤吧!爸爸”,“加勒比海盗5:死无对证”,“金刚:骷髅岛”,“极限特工:终极回归”,“生化危机6:终章”,“乘风破浪”,“神偷奶爸3”,“智取威虎山”,“大闹天竺”,“金刚狼3:殊死一战”,“蜘蛛侠:英雄归来”,“悟空传”,“银河护卫队2”,“情圣”,“新木乃伊”,]b=[56.01,2

2020-07-13 18:12:18 328

原创 数据分析之matplotlib 散点图(五)

绘制散点图示例假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,15,11,15,5,13,17,10,

2020-07-13 16:15:01 223

原创 数据分析之matplotlib 多条折线图(四)

练习2:假设大家在30岁的时候,根据自己的实际情况,统计出来了你和你同桌各自从11岁到30岁每年交的女(男)朋友的数量如列表a和b,请在一个图中绘制出该数据的折线图,以便比较自己和同桌20年间的差异,同时分析每年交女(男)朋友的数量走势a = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]b = [1,0,3,1,2,2,3,3,2,1 ,2,1,1,1,1,1,1,1,1,1]要求:y轴表示个数x轴表示岁数,比如11岁,12岁等from matplotlib

2020-07-13 15:42:20 1011

原创 数据分析之matplotlib 折线图(三)

练习:假设大家在30岁的时候,根据自己的实际情况,统计出来了从11岁到30岁每年交的女(男)朋友的数量如列表a,请绘制出该数据的折线图,以便分析自己每年交女(男)朋友的数量走势a = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]要求:y轴表示个数x轴表示岁数,比如11岁,12岁等from matplotlib import pyplot as pltimport random'''假设大家在30岁的时候,根据自己的实际情况,统计出来了从11岁到30岁

2020-07-13 15:39:47 235

原创 数据分析之matplotlib 折线图(二)

如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况?from matplotlib import pyplot as pltimport random''''设置图片大小figure图形图标的意思 ''''''如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况?https://blog.csdn.net/mudooo/article/details/80047074 Windows下,在Python中用matplotli

2020-07-13 15:38:09 148

原创 数据分析之matplotlib 折线图(一)

1、什么是matplotlibmatplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建2、为什么要学习matplotlib1.能将数据进行可视化,更直观的呈现2.使数据更加客观、更具说服力3、matplotlib该如何简单的使用假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是[15,13,14.5,17,20,25,26,26,27,22,18,15]from matplotlib import pyplo

2020-07-13 15:29:51 159

IntelliJ IDEA2018.2.3安装包及其破解包

本资源为本人百度云上的IntelliJ IDEA2018.2.3安装包链接,配合博客https://blog.csdn.net/weixin_38887752/article/details/84953355一步步教您快速安装IntelliJ IDEA2018.2.3开发工具

2019-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除