大数据
文章平均质量分 71
阿坚87
这个作者很懒,什么都没留下…
展开
-
Hadoop3.x修改默认配置
有时集群可能与现有端口冲突,或者出于安全考虑会要修改默认端口或存储。下面列出了整理的常用配置项。一、修改默认端口涉及组件配置项默认端口修改后端口配置文件zookeeper端口2181123XXzkui9093123XX/app/zkui/config.cfghadoopnamenode的web访问9870123XXhdsf-site.xml / dfs.namenode.http-address.mycluster.nn1hadoop原创 2021-11-17 09:00:32 · 648 阅读 · 0 评论 -
HBase集成Phoenix
HBase是使用列式存储,在使用起来不如SQL方便,所以就出现了Phoenix。可以直接基于HBase添加索引,以及用SQL实现增删改查。1. 下载解压参考:http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html# wget http://www.apache.org/dyn/closer.lua/phoenix/phoenix-5.1.1/phoenix-hbase-2.3-5.1.1-bin.tar.gz# wget https:原创 2021-11-15 11:17:09 · 1870 阅读 · 0 评论 -
Hadoop3.x集成HBase
HBase作为Hadoop家族中实现高并发的利器,我们来看看怎么进行集成。1. 下载并上传到服务器目前使用2.3.5版本wget https://mirrors.bfsu.edu.cn/apache/hbase/2.3.5/hbase-2.3.5-bin.tar.gz#wget https://mirrors.bfsu.edu.cn/apache/hbase/2.4.4/hbase-2.4.4-bin.tar.gz2. 解压tar zxvf hbase-2.3.5-bin.tar.gz -C原创 2021-11-14 08:05:13 · 1934 阅读 · 0 评论 -
Hadoop3.x集成Spark
在离线数仓方面,Spark现在所占据的地位勿庸置疑。我们来看看如何在Hadoop3.x中集成Spark。1. 下载与解压从镜像站下载 下载地址,选择3.0.2版本。上传到服务器后解压到/app目录下tar zxvf spark-3.0.2-bin-hadoop3.2.tgz -C /app# 修改目录名cd /app# mv spark-3.0.2-bin-hadoop3.2 spark-3.0.2ln -s spark-3.0.2-bin-hadoop3.2 spark2. 修改配置1原创 2021-11-13 16:56:22 · 2396 阅读 · 0 评论 -
Hadoop3.x集成Hive3.1.2手册
1)、安装MySQL卸载内置MariaDBrpm -qa | grep mariadbsudo yum -y remove mariadb-libs-5.5.68-1.el7.x86_64下载并解压文件下载地址:https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.21-1.el8.x86_64.rpm-bundle.tartar -xvf mysql-8.0.21-1.el7.x86_64.rpm-bundle.ta原创 2021-11-12 10:35:26 · 1416 阅读 · 0 评论 -
Hadoop3x高可用集群配置手册
集群规划本次安装拟使用的各软件版本如下CentOS 7.6Zookeeper 3.6.3Hadoop 3.2.2Hive 3.1.2Spark 3.0.2Sqoop 1.4.7MySQL 8.0.21机器规划机器名称zookeeperjournalnodenamenodedatanodeyarnmysqlhivesparkhadoop101YYYYYYYYhadoop102YYYYYYhadoop1原创 2021-11-11 15:11:39 · 1249 阅读 · 2 评论 -
Pandas之十二速查手册
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容Pandas的功能比较丰富,很多方法也不需要一直记住,只需要在用到的时候能找到就可以。比较通俗的做法是,在速查手册查找合适的方法,再看该方法的参数并测试和使用。(看方法参数推荐使用Pycharm)首先列出官方的速查表,再详细说明Pandas中的方法。速查表1.1 导入包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt1.2 数据.原创 2021-10-14 14:54:59 · 242 阅读 · 0 评论 -
Pandas之十一数据读取与导出
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容pandas可以从不同的数据源加载和导出数据。从下面两张图可以看出,支持的数据源还是比较丰富的。读取数据导出数据本文以常用的数据库和csv文件为例,做简单介绍。1. 操作数据库可以使用pd.read_sql从数据库读取数据,以及df.to_sql将dataframe的数据写入到数据库中。1.1 读取数据读取数据库数据时,需要安装相应的驱动包。此处使用pymysql,再指定用户名、密码、主机等信息,创建数据库连接对象.原创 2021-10-14 14:51:49 · 359 阅读 · 0 评论 -
Pandas之十数据分类
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容Pandas中为数据分类的需求提供专门的类型category,可以由多种方式创建,并结合dataframe或Series进行使用。1.1 pd.Categorical创建1.2 pd.Series创建1.3 pd.DataFrame创建1.4 CategoricalDtype创建...原创 2021-10-14 08:45:00 · 587 阅读 · 0 评论 -
Pandas之九时序数据
Pandas之九时序数据关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容有时要处理不同时间的数据,比如对其按日、月、年进行分析。Pandas提供了便捷的方法做这类分析,常用的方法有重新采样、时区设置、周期转换等。重新采样:使用resample方法对原始数据以某个新的频率进行采样,再进行聚合运算。时区设置:默认生成的时间不带时区(naive),可应对其进行时区设置(tz_localize)与转换(tz_convert)。周期转换:可以将某个时点的数据,用to_period方法原创 2021-10-11 20:41:12 · 581 阅读 · 0 评论 -
Pandas之八Reshaping(二)
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容前文我们聊过了数据重塑中的stack和unstack,今天继续聊聊透视表功能,该功能和Excel中的数据透视功能相似。pivot:对原始DataFrame进行变形整理。pivot table:可以在数据变形整理的基础上,做数据聚合操作。下面使用图中数据对其进行说明df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo", "bar", "bar", .原创 2021-09-30 15:52:45 · 87 阅读 · 0 评论 -
Pandas之八Reshaping(一)
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容数据分析时,有时会要对数据做一些变形才能更好地分析,Pandas提供了灵活的方法应对该场景,包括stack和pivot table。stack:将dataframe中的列转为行。pivot table:数据透视表,功能比较丰富,大多数场景都可适用。下面使用图中两套数据对这两个功能进行说明1. StackStack提供了行转列与列转行的操作,使用.stack将列转为行,还可以使用.unstack将行转为列(stack的逆操.原创 2021-09-29 16:17:28 · 107 阅读 · 0 评论 -
Pandas之七分组统计
Pandas之七分组统计关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容在数据分析时,分组也是一个常用的功能,比如分别统计每个月的股票波动率、每个部门的人数、每个季度的利润等等。在Pandas中提供了groupy方法对数据进行分组。Pandas中的groupby一般包括以下三个步骤:拆分,依据指定的规则将数据拆分为不同的组合。执行函数,将一个方法相对独立地在每个组合上执行。组合,将每个组合上执行的结果组合到一个结果集中。下面我们以图中的数据来演示上述各项功能。1、分原创 2021-09-26 11:14:08 · 360 阅读 · 0 评论 -
Pandas之六Merge
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容有时要分析的数据源存放在不同的地方被读取到不同的dataframe,但需要对其合并分析。比如某个业务按月份存放数据到不同的表或文件,但是需要合并分析各个月的变化趋势时就可能需要将不同的dataframe合并到后进行分析。Pandas提供了两种合并操作:concat:直接拼接,将datafarme或series按行或列拼接在一起join:类似于sql中的join,按照条件组合到一起1. Concatconcat可以同时合并两个.原创 2021-09-18 15:02:03 · 124 阅读 · 0 评论 -
Pandas之五数据操作
Pandas之五数据操作前面我们聊过了对象创建、数据查看、数据选择的相关操作,现在就要进入到数据分析阶段了。使用pandas主要原因就是其提供的数据分析功能,能实现大部分的数据统计分析工作。对数据进行操作主要有四种类型:数据统计:常用的就是计数、平均值、最大值、最小值、标准差、分位数等等函数应用:依次对dataframe每行执行某个函数数值计数:统计每个值出现的次数,在制作直方图时可能会用到字符串函数:pandas支持字符串,自然地支持对字符串进行各种操作下面我们以图中的数据来演示上述各项功原创 2021-09-17 09:41:30 · 171 阅读 · 0 评论 -
Pandas之三选择数据
前文介绍了如何查看dataframe数据,现在再来看看怎么样定位和修改pandas的具体数据。官方推荐选择数据的方法为.at, .iat, .loc, .iloc,这些方法可以指定行列的信息进行数据筛选。具体功能说明如下:at:根据标签(label)定位具体元素iat:根据位置定位具体元素loc:根据标签截取Series、dataframe或具体元素iloc:根据位置截取Series、dataframe或具体元素配合起来可以在dataframe里面使用多种方式选择数据:按数据列选择数据原创 2021-09-14 16:42:32 · 283 阅读 · 0 评论 -
SQL实现日期自动填充
SQL实现日期自动填充在使用SQL进行数据处理时,经常会遇到需要补齐日期的需求,今天聊一聊几个主流数据库的实现方式。下面以生成2021-09-01到2021-09-30之间所有日期为例进行说明Oracleconnect by的递归查询还是比较强大的,实现起来也比较简单SELECT TO_DATE('2021-08-31', 'yyyy-mm-dd') + ROWNUM as date_listFROM DUALCONNECT BY ROWNUM <= 30;MySQL在MySQL原创 2021-09-10 12:39:40 · 3138 阅读 · 0 评论 -
PySpark读取hive报权限不足
PySpark读取hive报权限不足1. 主体程序2. 报错日志3. 解决办法4. 效果1. 主体程序import findsparkfindspark.init()from pyspark.sql import SparkSessionimport warningswarnings.filterwarnings('ignore')spark = SparkSession.builder.master("local[*]")\ .appName("test")\ .enab原创 2021-05-06 10:06:52 · 529 阅读 · 0 评论 -
PySpark系列教程--1.起航
PySpark系列教程--1.起航搭建环境1. 安装JDK2. 安装hadoop3. 安装spark4. 安装python5. 下载winutils6. 安装pyspark、findspark7. 测试第一个pyspark程序搭建环境本次使用的环境版本为hadoop3.2.1和spark3.0.21. 安装JDK推荐安装jdk82. 安装hadoop下载hadoop,推荐使用国内镜像解压到本地,路径不能包含空格!配置环境变量HADOOP_HOME,并在PATH中增加%HADOOP_HOME原创 2021-05-01 20:40:46 · 136 阅读 · 0 评论 -
CDH5.14 spark问题记录
pyspark启动报错To adjust logging level use sc.setLogLevel(newLevel).18/04/08 16:20:33 ERROR spark.SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: Required executor memory...原创 2018-04-08 17:12:26 · 1062 阅读 · 0 评论 -
CDH安装问题点记录
HDFS报副本块不足参考:https://blog.csdn.net/HFUTLXM/article/details/77605915https://blog.csdn.net/HFUTLXM/article/details/77605915#t4修改 : dfs.replication = 2 , 因节点数较少.副本数不能比节点数大并执行命令su hdfshadoop fs -setrep -...原创 2018-03-28 17:24:03 · 282 阅读 · 0 评论 -
cdh5.14 sqoop 问题记录
sqoop1 client报错:Warning: /opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.Please set $ACCUMULO_HOME to the root of your Accumu...原创 2018-04-04 09:10:23 · 2349 阅读 · 0 评论 -
CDH5.14 Hive安装问题
配置Hive高可用by zk:http://community.cloudera.com/t5/Batch-SQL-Apache-Hive/CDH-5-4-0-and-HiveServer2-High-Availability-via-ZooKeeper/td-p/33469http://lxw1234.com/archives/2016/05/675.htm1、open hive -> C...原创 2018-04-06 20:00:34 · 811 阅读 · 0 评论 -
hive用SERDE解析带引号的数据
文本数据格式如:"100000006","101"使用SERDE解析drop table testtable;create external table testtable( id decimal(18), recordid string) partitioned by (data_dt string)ROW FORMAT SERDE 'org.apache.hadoop....原创 2018-04-13 11:04:23 · 1395 阅读 · 0 评论 -
flume采集oracle数据到hdfs配置
tier1.sources = srctesttier1.channels = chtesttier1.sinks = sinktesttier1.sources.srctest.type = org.keedio.flume.source.SQLSourcetier1.sources.srctest.hibernate.connection.url = jdbc:oracle:t...原创 2018-04-13 14:39:20 · 2473 阅读 · 1 评论 -
HivePoc相关内容
Oracle数据导入提前在hive建表sqoop import --connect jdbc:oracle:thin:@ip:1521:acrmdev --table table_name --m 1 --username dbusername --password dbuserpassword --delete-target-dir --hive-import --hive-overwrite ...原创 2018-04-27 14:40:26 · 145 阅读 · 0 评论 -
win7编译cdh5.14.0
环境准备跳过所有,直接下载官方 building.txtRequirements:* Windows System* JDK 1.7+ 只能是jdk1.7, require ( 1.7.0~1.7.10000),安装路径不含空格!* Maven 3.0 or later * Findbugs 1.3.9 (if running findbugs) path +=D:...原创 2018-04-21 22:02:59 · 218 阅读 · 0 评论 -
hadoop性能调优
内存设置http://www.cnblogs.com/yuechaotian/archive/2013/03/08/2949607.html性能调优http://bihell.com/2016/04/18/hadoop-performance-management/原创 2018-03-30 14:32:18 · 118 阅读 · 0 评论