自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

坚哥笔记

数据处理相关的心得和问题解决办法分享

  • 博客(40)
  • 资源 (6)
  • 收藏
  • 关注

原创 Hadoop3.x修改默认配置

有时集群可能与现有端口冲突,或者出于安全考虑会要修改默认端口或存储。下面列出了整理的常用配置项。一、修改默认端口涉及组件配置项默认端口修改后端口配置文件zookeeper端口2181123XXzkui9093123XX/app/zkui/config.cfghadoopnamenode的web访问9870123XXhdsf-site.xml / dfs.namenode.http-address.mycluster.nn1hadoop

2021-11-17 09:00:32 673

原创 HBase集成Phoenix

HBase是使用列式存储,在使用起来不如SQL方便,所以就出现了Phoenix。可以直接基于HBase添加索引,以及用SQL实现增删改查。1. 下载解压参考:http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html# wget http://www.apache.org/dyn/closer.lua/phoenix/phoenix-5.1.1/phoenix-hbase-2.3-5.1.1-bin.tar.gz# wget https:

2021-11-15 11:17:09 1892

原创 Hadoop3.x集成HBase

HBase作为Hadoop家族中实现高并发的利器,我们来看看怎么进行集成。1. 下载并上传到服务器目前使用2.3.5版本wget https://mirrors.bfsu.edu.cn/apache/hbase/2.3.5/hbase-2.3.5-bin.tar.gz#wget https://mirrors.bfsu.edu.cn/apache/hbase/2.4.4/hbase-2.4.4-bin.tar.gz2. 解压tar zxvf hbase-2.3.5-bin.tar.gz -C

2021-11-14 08:05:13 1945

原创 Hadoop3.x集成Spark

在离线数仓方面,Spark现在所占据的地位勿庸置疑。我们来看看如何在Hadoop3.x中集成Spark。1. 下载与解压从镜像站下载 下载地址,选择3.0.2版本。上传到服务器后解压到/app目录下tar zxvf spark-3.0.2-bin-hadoop3.2.tgz -C /app# 修改目录名cd /app# mv spark-3.0.2-bin-hadoop3.2 spark-3.0.2ln -s spark-3.0.2-bin-hadoop3.2 spark2. 修改配置1

2021-11-13 16:56:22 2453

原创 Hadoop3.x集成Hive3.1.2手册

1)、安装MySQL卸载内置MariaDBrpm -qa | grep mariadbsudo yum -y remove mariadb-libs-5.5.68-1.el7.x86_64下载并解压文件下载地址:https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.21-1.el8.x86_64.rpm-bundle.tartar -xvf mysql-8.0.21-1.el7.x86_64.rpm-bundle.ta

2021-11-12 10:35:26 1429

原创 Hadoop3x高可用集群配置手册

集群规划本次安装拟使用的各软件版本如下CentOS 7.6Zookeeper 3.6.3Hadoop 3.2.2Hive 3.1.2Spark 3.0.2Sqoop 1.4.7MySQL 8.0.21机器规划机器名称zookeeperjournalnodenamenodedatanodeyarnmysqlhivesparkhadoop101YYYYYYYYhadoop102YYYYYYhadoop1

2021-11-11 15:11:39 1296 2

原创 Pandas之十二速查手册

关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容Pandas的功能比较丰富,很多方法也不需要一直记住,只需要在用到的时候能找到就可以。比较通俗的做法是,在速查手册查找合适的方法,再看该方法的参数并测试和使用。(看方法参数推荐使用Pycharm)首先列出官方的速查表,再详细说明Pandas中的方法。速查表1.1 导入包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt1.2 数据.

2021-10-14 14:54:59 252

原创 Pandas之十一数据读取与导出

关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容pandas可以从不同的数据源加载和导出数据。从下面两张图可以看出,支持的数据源还是比较丰富的。读取数据导出数据本文以常用的数据库和csv文件为例,做简单介绍。1. 操作数据库可以使用pd.read_sql从数据库读取数据,以及df.to_sql将dataframe的数据写入到数据库中。1.1 读取数据读取数据库数据时,需要安装相应的驱动包。此处使用pymysql,再指定用户名、密码、主机等信息,创建数据库连接对象.

2021-10-14 14:51:49 377

原创 Pandas之十数据分类

关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容Pandas中为数据分类的需求提供专门的类型category,可以由多种方式创建,并结合dataframe或Series进行使用。1.1 pd.Categorical创建1.2 pd.Series创建1.3 pd.DataFrame创建1.4 CategoricalDtype创建...

2021-10-14 08:45:00 600

原创 Pandas之九时序数据

Pandas之九时序数据关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容有时要处理不同时间的数据,比如对其按日、月、年进行分析。Pandas提供了便捷的方法做这类分析,常用的方法有重新采样、时区设置、周期转换等。重新采样:使用resample方法对原始数据以某个新的频率进行采样,再进行聚合运算。时区设置:默认生成的时间不带时区(naive),可应对其进行时区设置(tz_localize)与转换(tz_convert)。周期转换:可以将某个时点的数据,用to_period方法

2021-10-11 20:41:12 592

原创 Pandas之八Reshaping(二)

关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容前文我们聊过了数据重塑中的stack和unstack,今天继续聊聊透视表功能,该功能和Excel中的数据透视功能相似。pivot:对原始DataFrame进行变形整理。pivot table:可以在数据变形整理的基础上,做数据聚合操作。下面使用图中数据对其进行说明df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo", "bar", "bar", .

2021-09-30 15:52:45 101

原创 Pandas之八Reshaping(一)

关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容数据分析时,有时会要对数据做一些变形才能更好地分析,Pandas提供了灵活的方法应对该场景,包括stack和pivot table。stack:将dataframe中的列转为行。pivot table:数据透视表,功能比较丰富,大多数场景都可适用。下面使用图中两套数据对这两个功能进行说明1. StackStack提供了行转列与列转行的操作,使用.stack将列转为行,还可以使用.unstack将行转为列(stack的逆操.

2021-09-29 16:17:28 115

原创 Pandas之七分组统计

Pandas之七分组统计关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容在数据分析时,分组也是一个常用的功能,比如分别统计每个月的股票波动率、每个部门的人数、每个季度的利润等等。在Pandas中提供了groupy方法对数据进行分组。Pandas中的groupby一般包括以下三个步骤:拆分,依据指定的规则将数据拆分为不同的组合。执行函数,将一个方法相对独立地在每个组合上执行。组合,将每个组合上执行的结果组合到一个结果集中。下面我们以图中的数据来演示上述各项功能。1、分

2021-09-26 11:14:08 370

原创 Pandas之六Merge

关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容有时要分析的数据源存放在不同的地方被读取到不同的dataframe,但需要对其合并分析。比如某个业务按月份存放数据到不同的表或文件,但是需要合并分析各个月的变化趋势时就可能需要将不同的dataframe合并到后进行分析。Pandas提供了两种合并操作:concat:直接拼接,将datafarme或series按行或列拼接在一起join:类似于sql中的join,按照条件组合到一起1. Concatconcat可以同时合并两个.

2021-09-18 15:02:03 136

原创 Pandas之五数据操作

Pandas之五数据操作前面我们聊过了对象创建、数据查看、数据选择的相关操作,现在就要进入到数据分析阶段了。使用pandas主要原因就是其提供的数据分析功能,能实现大部分的数据统计分析工作。对数据进行操作主要有四种类型:数据统计:常用的就是计数、平均值、最大值、最小值、标准差、分位数等等函数应用:依次对dataframe每行执行某个函数数值计数:统计每个值出现的次数,在制作直方图时可能会用到字符串函数:pandas支持字符串,自然地支持对字符串进行各种操作下面我们以图中的数据来演示上述各项功

2021-09-17 09:41:30 183

原创 Pandas之四缺失数据处理

Pandas之四缺失数据处理在实际的数据处理过程当中,不可避免地会遇到有部分数据缺失。比如在分析股票行情数据时,有部分股票有时会停牌就会出现行情数据缺失的情况。一般在pandas中将缺失值以np.nan来表示,其好处是会在计算时忽略,同时其类型是float,不影响总体数据计算。数据分析时就要处理这些缺失值,pandas提供了缺失数据处理方法,包括删除缺失值、缺失值填充、缺失值判断等。首先在前文数据上,生成新的dataframe:删除缺失值使用.dropna删除缺失值,可以针对整个datafram

2021-09-15 13:10:44 363

原创 Pandas之三选择数据

前文介绍了如何查看dataframe数据,现在再来看看怎么样定位和修改pandas的具体数据。官方推荐选择数据的方法为.at, .iat, .loc, .iloc,这些方法可以指定行列的信息进行数据筛选。具体功能说明如下:at:根据标签(label)定位具体元素iat:根据位置定位具体元素loc:根据标签截取Series、dataframe或具体元素iloc:根据位置截取Series、dataframe或具体元素配合起来可以在dataframe里面使用多种方式选择数据:按数据列选择数据

2021-09-14 16:42:32 313

原创 Pandas之二查看数据

上文我们聊过了在pandas中的对象创建,其中最常用的对象就是dataframe,今天我们来聊聊怎么样其中的数据。pandas提供了丰富的查看数据的手段:head:查看最前面的几行tail:查看最后面的几行index:查看indexcolumns:查看列名describe:查看dataframe的几个统计量,包括总数、均值、标准差、最小值、最大值、25%分位数、50%分位数和75%分位数T:转置后的dataframesort_index:使用index进行排序sort_values:对其

2021-09-14 09:57:32 813

原创 Pandas之一创建对象

Pandas之一创建对象pandas已经成了使用python进行数据分析的必备工具,其基于numpy使用纯python开发。本文从最简单的对象创建讲起,会逐步深入讲解。通过pandas可以创建的对象包括Series、Index和DataFrame。Series可以理解为一个一维数组,也有点像列表。Index可以理解为二维表格中的序号,用于标识每行数据,不能重复,不能删除。DataFrame可以理解为二维表格,其包括index、column、row等属性。Series通过一个值列表直接创建

2021-09-13 16:22:43 371

原创 SQL实现日期自动填充

SQL实现日期自动填充在使用SQL进行数据处理时,经常会遇到需要补齐日期的需求,今天聊一聊几个主流数据库的实现方式。下面以生成2021-09-01到2021-09-30之间所有日期为例进行说明Oracleconnect by的递归查询还是比较强大的,实现起来也比较简单SELECT TO_DATE('2021-08-31', 'yyyy-mm-dd') + ROWNUM as date_listFROM DUALCONNECT BY ROWNUM <= 30;MySQL在MySQL

2021-09-10 12:39:40 3213

原创 综合评价法之秩和比法(RSR)

背景介绍秩和比法(Rank-sum ratio,简称RSR法),是我国学者、原中国预防医学科学院田凤调教授于1988年提出的,集古典参数统计与近代非参数统计各自优点于一体的统计分析方法。它不仅适用于四格表资料的综合评价,也适用于行×列表资料的综合评价,同时也适用于计量资料和分类资料的综合评价。RSR法现在广泛地应用于医疗卫生、科技、经济等邻域的多指标综合评价、统计预测预报、鉴别分类、统计质量控制等方面。设计思想使用数据大小的相对关系,对评价对象进行排名,根据排名的结果计算得到RSR。一般过程是将

2021-08-30 14:29:21 8760 1

原创 阿里云CentOS添加硬盘

1. 查看机器情况从图中可看出,只有vda1和vdj1挂载到了系统中,其余硬盘仍未挂载。本次拟将vdg、vdh和vdi三块盘挂载到系统中2. 硬盘分区使用fdisk分区注:输入:n 新建一个分区p 设定为主分区回车 格式化整个盘w 保存分区设置因为硬盘超过2T,不能使用fdisk分区,故采用parted2. 使用parted分区,阿里云默认已经装过不需要再装sudo yum install -y parted3.使用parted进行分区操作sudo parted /dev

2021-07-06 16:06:41 275

原创 Linux安装Python3

Linux安装Python3安装必要包sudo yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel libffi-devel gcc make下载和安装wget https://www.python.org/ftp/python/3.9.6/Python-3.9.6.tgztar -zxvf **.gz./configure --prefi

2021-07-06 13:47:30 146

原创 PySpark读取hive报权限不足

PySpark读取hive报权限不足1. 主体程序2. 报错日志3. 解决办法4. 效果1. 主体程序import findsparkfindspark.init()from pyspark.sql import SparkSessionimport warningswarnings.filterwarnings('ignore')spark = SparkSession.builder.master("local[*]")\ .appName("test")\ .enab

2021-05-06 10:06:52 567

原创 PySpark系列教程--1.起航

PySpark系列教程--1.起航搭建环境1. 安装JDK2. 安装hadoop3. 安装spark4. 安装python5. 下载winutils6. 安装pyspark、findspark7. 测试第一个pyspark程序搭建环境本次使用的环境版本为hadoop3.2.1和spark3.0.21. 安装JDK推荐安装jdk82. 安装hadoop下载hadoop,推荐使用国内镜像解压到本地,路径不能包含空格!配置环境变量HADOOP_HOME,并在PATH中增加%HADOOP_HOME

2021-05-01 20:40:46 144

原创 PostgreSQL安装Oracle_fdw

Windows版本安装Oracle_fdw参考操作步骤 https://blog.csdn.net/ljinxin/article/details/77772587前置步骤,拷贝相关文件,共4个文件lib\oracle_fdw.dllshare\extension\oracle_fdw.control oracle_fdw--1.0--1.1.sql oracle_fdw--1.1.sqlLinux安装Oracle_fdw下载

2020-08-12 13:28:40 707 1

原创 Windows环境Oracle搭建Data Guard

软件安装主库安装数据库,备库只安装软件修改db_unique_name参数主库db_unique_name: primary备库db_unique_name: standby-- 查看现在的db_unique_nameshow parameter db_unique_name; -- orcl-- 在线修改db_unique_name(分别修改主库和备库)1. alter system set db_unique_name='primary' scope=spfile;2. alter

2020-08-12 13:22:15 1324

原创 pandas计算最大回撤

文章目录需求实现总结需求实现总结因参考文章实现的是一个series的数据,而我需要处理整个dataframe里面的指标,而这时还不太清楚pandas.groupby.apply的用法pandas.groupby.agg是对分组中的某一列进行处理,是将该列传递给agg的函数,当需要同时处理多个列时,agg就有点力不从心pandas.groupby.apply是对一个分组进行处理,会将整...

2020-03-23 18:04:47 4063

原创 Java调用Python脚本问题总结

文章目录问题解决办法参考文章问题使用Java调用Python脚本执行时遇到hang住,导致后续程序无法继续执行。一共遇到过2次,两次原理是一样的,但是出现的方式不同屏幕打印日志,而java调用时未及时消费,导致缓冲区被写满python脚本报很多warning错误,打印到屏幕上,同样导致缓冲区被写满解决办法针对屏幕打印日志的问题,将屏幕日志关闭streamHandler = l...

2019-11-20 14:24:53 425

原创 Pandas中inf值替换

Pandas中inf值替换问题出现inf的原因解决办法参考文章问题今天使用Pandas从MySQL读取数据,在处理之后再写回到数据库时报了一个错误:sqlalchemy.exc.ProgrammingError: (MySQLdb._exceptions.ProgrammingError) inf can not be used with MySQL很明确报错说明,是因为DataFram...

2019-11-18 11:22:55 9717 1

原创 数据库某列数据相乘

1.基本思路Oracle、MySQL等数据库中只有sum、max、min等函数用于做某列数据聚合,而没有办法直接计算某列数据的乘积,所以需要另想办法。根据数学对数的加法原理,可对该列中所有数据取对数,后sum再做指数运算,即可得出所需结果。该做法最大的好处是利用数据库预置函数,效率相对较高该思路亦可应用到其他语言2.对数加法原理以下实验基于MySQL3.查询结果代码SELEC...

2019-11-18 09:34:03 6469

原创 HivePoc相关内容

Oracle数据导入提前在hive建表sqoop import --connect jdbc:oracle:thin:@ip:1521:acrmdev --table table_name --m 1 --username dbusername --password dbuserpassword --delete-target-dir --hive-import --hive-overwrite ...

2018-04-27 14:40:26 153

原创 win7编译cdh5.14.0

环境准备跳过所有,直接下载官方 building.txtRequirements:* Windows System* JDK 1.7+                只能是jdk1.7, require ( 1.7.0~1.7.10000),安装路径不含空格!* Maven 3.0 or later * Findbugs 1.3.9 (if running findbugs)  path +=D:...

2018-04-21 22:02:59 224

原创 flume采集oracle数据到hdfs配置

tier1.sources  = srctesttier1.channels = chtesttier1.sinks    = sinktesttier1.sources.srctest.type     = org.keedio.flume.source.SQLSourcetier1.sources.srctest.hibernate.connection.url = jdbc:oracle:t...

2018-04-13 14:39:20 2480 1

原创 hive用SERDE解析带引号的数据

文本数据格式如:"100000006","101"使用SERDE解析drop table testtable;create external table testtable(  id         decimal(18),  recordid   string) partitioned by (data_dt string)ROW FORMAT SERDE 'org.apache.hadoop....

2018-04-13 11:04:23 1406

原创 CDH5.14 spark问题记录

pyspark启动报错To adjust logging level use sc.setLogLevel(newLevel).18/04/08 16:20:33 ERROR spark.SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: Required executor memory...

2018-04-08 17:12:26 1073

原创 CDH5.14 Hive安装问题

配置Hive高可用by zk:http://community.cloudera.com/t5/Batch-SQL-Apache-Hive/CDH-5-4-0-and-HiveServer2-High-Availability-via-ZooKeeper/td-p/33469http://lxw1234.com/archives/2016/05/675.htm1、open hive -&gt; C...

2018-04-06 20:00:34 821

原创 cdh5.14 sqoop 问题记录

sqoop1 client报错:Warning: /opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.Please set $ACCUMULO_HOME to the root of your Accumu...

2018-04-04 09:10:23 2365

原创 hadoop性能调优

内存设置http://www.cnblogs.com/yuechaotian/archive/2013/03/08/2949607.html性能调优http://bihell.com/2016/04/18/hadoop-performance-management/

2018-03-30 14:32:18 131

原创 CDH安装问题点记录

HDFS报副本块不足参考:https://blog.csdn.net/HFUTLXM/article/details/77605915https://blog.csdn.net/HFUTLXM/article/details/77605915#t4修改 : dfs.replication = 2 , 因节点数较少.副本数不能比节点数大并执行命令su  hdfshadoop fs -setrep -...

2018-03-28 17:24:03 297

Pandas速查表打印版.pdf

pandas速查表

2021-10-15

Pandas系列文档.pdf

pandas入门系列教程

2021-10-15

hadoop-2.6.0-cdh5.14.0编译的bin文件 hadoop.dll winutils.exe

耗时两天周末,win7 X64环境自己编译的bin目录 hadoop.dll winutils.exe hadoop hadoop.cmd hadoop.exp hadoop.lib hadoop.pdb hdfs hdfs.cmd hdfs.dll hdfs.lib hdfs.pdb libwinutils.lib mapred mapred.cmd rcc winutils.pdb yarn yarn.cmd

2018-04-23

hadoop-eclipse-plugin-2.6.5.jar

hadoop-eclipse-plugin-2.6.5.jar 大数据开发必备 , 下载时注意版本

2018-04-17

flume-ng-sql-source-1.5.1

flume-ng-sql-source-1.5.1 flume连接数据库 很好用的工具

2018-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除