![](https://img-blog.csdnimg.cn/direct/c0b70a242c624fbd80e8acafef8337d7.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据技术与应用
文章平均质量分 67
此专栏的相关代码来源于肖政宏教授院长的《大数据技术与应用》,此专栏记录下所有知识,方面回顾。
橙汁啤
这个作者很懒,什么都没留下…
展开
-
医药电商大数据实践
建立医药电商大数据分析平台采集医药电商的数据、分析电商平台数据、可视化电商平台数据。可以根据医药产品销售和库存管理来提高销售率等等。1.流量分析:根据每日、每月、年度分析用户的行为数据,如浏览量、访客数、访问次数、平均访问深度等等2.经营状态分析。根据月度或年度对销售状态进行统计,统计指标包括下单金额,下单客户,下单量等等3.大数据可视化系统系统以离线批处理方式,推送采集结果数据给大数据分析平台。原创 2024-03-11 21:57:58 · 167 阅读 · 0 评论 -
hbase rowkey设计原则
Row Key是用来检索记录的主键,访问Hbase Table中的行有三种:1.通过单个Row key访问2.通过Row key的Range访问3.全表扫描访问。原创 2024-03-12 06:43:44 · 278 阅读 · 0 评论 -
HBase分布式数据库的原理和架构
二二、原创 2024-03-12 05:38:53 · 158 阅读 · 0 评论 -
Spark集群部署
在Hadoop-2.7.3上部署Spark集群,需要scala-2.11.12.tgz和spark-2.4.0-bin-hadoop2.7.tgz软件包。在相关目录下解压软件包。在spark的conf目录下修改slaves.template文件。注意该文件也可以被命名为workers.template。并将文件命名成salves/workers。SPark交互主要有PYSpark,PYSpark支持python语言。脚本可以直接在交互窗口运行。注意等号右边是安装scala、spark的路径。原创 2024-02-15 14:24:45 · 446 阅读 · 1 评论 -
Hive安装与配置与mysql的安装
此时需要查看下配置是否出错,在确认无误下。可能是JDBC版本与mysql版本不匹配了。可查看此文章:https://editor.csdn.net/md/?在Hadoop-2.7.3环境上部署Hive数据仓库,安装Hive需要apache-hive-2.1.1-bin.tar.gz软件包,在相关目录下解压软件包。注意:此处可能会遇到问题:Failed to get schema version。格式:yum -y remove [SQL名]格式:mv [原来的名字] [修改后的名字]原创 2024-02-26 23:32:01 · 1431 阅读 · 1 评论 -
Zookeeper集群部署
上传zookeeper-3.4.9.tar.gz安装包到 opt目录,解压并重新命名为zookeeper。原创 2024-02-29 00:20:48 · 321 阅读 · 0 评论 -
zookerper的应用之一:ResourceManager HA
注意:启动时出现org.apache.hadoop.yarn.server.resourcemanager.recovery .ZKRMStateStore not found的错误,请看:https://editor.csdn.net/md/?对于slave1子节点yarn.resourcemanager.ha.id的参数需要改成rm2,对于其他节点就直接删除该配置即可。关闭master的ResourceManager,浏览器在http://master:8088/会显示无法访问该网页。原创 2024-03-01 14:13:08 · 465 阅读 · 1 评论 -
zookerper的应用之二:Spark HA
查看Spark集群信息,http://master:8088,主节点master状态为Standby,子节点Slave1状态为Active。原创 2024-03-01 15:14:08 · 245 阅读 · 1 评论 -
Hive Beeline 配置
Beeline作为Hive的客户端工具,它支持两种模式:嵌入式模式(embedded mode)和远程模式(remote mode)。在嵌入式模式下,Beeline可以直接在HiveServer2的JVM中运行HiveQL脚本,而在远程模式下,Beeline可以在其他机器上运行并通过网络连接到HiveServer2。Beeline的主要特点包括基于JDBC:Beeline是一个基于SQLLine CLI的JDBC客户端,这意味着它可以通过JDBC连接到HiveServer2,并执行SQL语句或文件。原创 2024-03-05 00:55:49 · 741 阅读 · 1 评论 -
Zookeeper案例
步骤:右键此项目 > Build Path > Configure Build Path > 在 Java Build Path 的 Libraries 栏下点击 Add External JARs > 导入jar包 > 点击 Apply and Close 即可。在Eclipse导入slf4j.api-1.6.1.jar和zookeeper-3.4.10.jar。步骤:右键此项目 > Export > java > Runnable jar file>#java -jar [文件路径]原创 2024-03-06 21:23:31 · 427 阅读 · 1 评论 -
HBase过滤器
Get和Scan都支持过滤器,这些类提供的接口不能对行键、列名和列值进行过滤,但过滤器可以实现。过滤器的接口为Filter。所有的过滤器都在服务器端生效,防止过滤掉的数据被传到客户端;用户可以在客户端代码实现过滤的功能,但会影响系统性能。原创 2024-02-13 06:00:00 · 380 阅读 · 1 评论 -
HBase Shell操作命令
它是系统级别的命名空间,通常包含HBase自身的元数据和系统表。这些系统表存储了HBase集群的结构和配置信息,对于HBase的运行和管理至关重要。例如,HBase中的hbase:meta表就位于这个命名空间中,它保存了所有用户表的元数据,包括表名、列族信息以及每个表的RegionServer位置等。当用户在HBase中创建表而没有指定命名空间时,表会被创建在default命名空间中。这个命名空间是为用户自定义表设计的,用户可以在这个命名空间中创建、管理和查询自己的数据表。增加department列族。原创 2024-02-12 21:51:58 · 601 阅读 · 1 评论 -
HBase集群部署
在linux上部署Hbase原创 2024-02-11 05:00:43 · 1442 阅读 · 2 评论