hadoop
文章平均质量分 87
QAQ_0v0
这个作者很懒,什么都没留下…
展开
-
推荐系统算法
推荐系统算法常用推荐算法分类基于人口统计学推荐用户画像基于内容的推断基于协同过滤的推荐基于协同过滤的推荐的优缺点常用推荐算法分类基于人口统计学推荐基于人口统计学的推荐机制(Demographic-based Recommendation) 是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户对于没有明确含义的用户信息(比如登录时间、地域等上下文信息),可以通过聚类等手段,给用户打上分类标签对于特定标签的用户,又可以根据预设的原创 2020-12-04 19:47:22 · 363 阅读 · 0 评论 -
监督学习-逻辑回归
监督学习-逻辑回归逻辑斯蒂回归一分类问题Sigmoid函数(压缩函数)逻辑斯谛回归损失函数梯度下降法求解逻辑斯蒂回归一分类问题Sigmoid函数(压缩函数)我们将线性回归拟合出来的值用压缩函数进行压缩,压缩完成后用0.5做一个概率的判定边界,就能把样本分成两类,即正样本和负样本.sigmoid函数中,ez中Z的正负决定了g(z) 的值最后是大于0.5还是小于0.5;即z大于0时,g(z)大于0.5, z小于0时,g(z)小于 0.5当z对应的表达式为分类边界时,恰好有分类边界两侧对应z原创 2020-12-03 19:57:08 · 322 阅读 · 0 评论 -
监督学习-分类模型
分类模型K临近(KNN)KNN计算距离KNN算法K临近(KNN)最简单最初级的分类器, 就是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类.K近邻(k-nearest neighbour, KNN) 是一种基本分类方法,通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数KNN算法中, 所选择的邻居都原创 2020-12-02 19:57:16 · 430 阅读 · 0 评论 -
监督学习-回归模型
监督学习-回归模型线性回归模型最小二乘法求解线性回归多元线性回归梯度下降法求解线性回归梯度下降法和最小二乘法线性回归模型线性回归(linear regression)是一种线性模型, 它假设输入变量x和单个输出变量y之间存在线性关系具体来说,利用线性回归模型,可以从一组输入变量x的线性组合中,计算输出变量y给定有d个属性(特征)描述的示例x= (x1;x2;;xd) ,其中xi是x在第i 个属性(特征)上的取值, 线性模型(linear model)试图学得一个通过属性(特征)的线性原创 2020-12-01 19:51:05 · 294 阅读 · 0 评论 -
机器学习基础
机器学习基础机器学习概念定义机器学习过程机器学习主要分类无监督学习监督学习监督学习深入理解监督学习三要素监督学习实现步骤模型评估策略机器学习概念定义机器学习(Machine Learning, ML)主要研究计算机系统对于特定任务的性能,逐步进行改善的算法和统计模型。通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行原创 2020-11-30 19:44:50 · 364 阅读 · 0 评论 -
推荐系统概述
推荐系统概述推荐系统目的概述目的推荐系统基本思想推荐系统的数据分析推荐系统分类推荐算法简介推荐系统评测指标推荐系统目的概述推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧症”;面向没有明确需求的人。解决如何从大量信息中找到自己感兴趣的信息。解决如何让自己生产的信息脱颖而出,受到大众的喜爱。目的让用户更快更好的获取到自己需要的内容让内容更快更好的推送到喜欢它的用户手中让网站(平台)更有效的保留用户资源推荐系统基本思想知原创 2020-11-29 19:40:38 · 314 阅读 · 0 评论 -
数仓项目总结
数仓项目总结技术框架业务技术框架LinuxFlume 采集Kafka缓存Flume消费HDFS存储Hive数仓 自定义UDF、UDTF、日期处理函数Sqoop数据导入MySQL指标存储AzkabanZookeeperKafka ManagerFlume监控器TezPrestoKylinHbaseHueShell业务用户行为业务表12张,每张表的字段记住4-5个分层结构图业务术语电商中最关心的指标:留转GMV复活需求一:用户活跃主原创 2020-11-27 19:28:10 · 238 阅读 · 0 评论 -
数仓搭建及项目需求
仓搭建及项目需求数仓搭建业务数据生成建表语句业务数据生成业务数据导入数仓ODS层DWD层DWS层之用户行为宽表项目需求GMV成交总额什么是GMV转化率什么是转化率品牌复购率复购率计算分析数仓搭建业务数据生成建表语句创建数据库设置数据库编码导入建表脚本,创成表导入数据插入脚本,函数脚本,存储过程脚本业务数据生成通过函数脚本生成业务数据业务数据导入数仓ODS层完全仿照业务数据库中的表字段,一模一样的创建ODS层对应表。DWD层积压ODS层对数据进行判空过滤。对商品分类表进行维度原创 2020-11-26 20:01:41 · 547 阅读 · 0 评论 -
电商业务
电商业务电商业务流程电商表结构电商常识(SKU、SPU)电商业务流程电商表结构电商常识(SKU、SPU)SKU=Stock Keeping Unit(库存量单位)。即库存进出计量的基本单元,可以是以件,盒,托盘等为单位。SKU这是对于大型连锁超市DC(配送中心)物流管理的一个必要的方法。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。SPU(Standard Product Unit):标准化产品单元。是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合原创 2020-11-25 20:06:53 · 247 阅读 · 0 评论 -
数仓分层概念
数仓分层概念为什么要分层数据分层原理关于区分数据集市与数据仓库为什么要分层把复杂问题简单化将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。清晰数据结构每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。.减少重复开发规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性。隔离原始数据不论是数据的异原创 2020-11-24 20:20:33 · 381 阅读 · 0 评论 -
数仓设计
数仓设计需求项目框架技术选型系统架构图设计系统数据流程设计框架版本选型集群资源规划设计数据生成模块埋点数据基本格式需求实时采集埋点的用户行为数据实现数据仓库分层搭建每天定时导入业务数据根据数据进行报表分析项目框架技术选型数据采集传输:Flume,Kafka,Logstash,DataX,Sqoop数据存储:Hive,Mysql,HDFS,HBase,S3数据计算:Spark,Hive,Tez,Filnk,Storm数据查询:Presto,Impala,Kylin系统架构图设计原创 2020-11-23 19:25:25 · 518 阅读 · 1 评论 -
数仓理论
数仓理论表的分类实体表维度表事务型事实表周期型事实表同步策略实体表同步策略维度表同步策略事务型事实表同步策略周期型事实表同步策略范式理论范式概念表的分类实体表定义实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。用户表:用户id姓名生日性别邮箱用户等级创建时间1张三2011-11-11男zs@163.com22018-11-112李四2011-11-11女ls@163.com32018-11-113王原创 2020-11-22 20:19:49 · 543 阅读 · 0 评论 -
HBase基础入门
HBase基础入门简介HBase与Hadoop的关系RDBMS与HBase的对比HBase特征简要HBase的基础架构HMasterRegionServer组件:简介hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据原创 2020-10-24 20:16:28 · 378 阅读 · 0 评论 -
kafka监控及运维
kafka监控及运维kafka-eagle概述环境和安装环境要求安装步骤在开发工作中,消费在Kafka集群中消息,数据变化是我们关注的问题,当业务前提不复杂时,我们可以使用Kafka 命令提供带有Zookeeper客户端工具的工具,可以轻松完成我们的工作。随着业务的复杂性,增加Group和 Topic,那么我们使用Kafka提供命令工具,已经感到无能为力,那么Kafka监控系统目前尤为重要,我们需要观察 消费者应用的细节。kafka-eagle概述为了简化开发者和服务工程师维护Kafka集群的工作有一原创 2020-10-22 19:48:42 · 191 阅读 · 0 评论 -
CAP理论以及kafka当中的CAP机制
CAP理论以及kafka当中的CAP机制分布式系统当中的CAP理论一致性:Consistency可用性:Availability分区容忍性:Partition tolerancePartition toleranceConsistencyAvailabilitykafka当中的CAP应用分布式系统当中的CAP理论分布式系统(distributed system)正变得越来越重要,大型网站几乎都是分布式的。分布式系统的最大难点,就是各个节点的状态如何同步。为了解决各个节点之间的状态同步问题,在1998原创 2020-10-21 19:41:06 · 1240 阅读 · 0 评论 -
Kafka集群操作
Kafka集群操作创建topic查看主题命令生产者生产数据消费者消费数据运行describe topics命令增加topic分区数增加配置删除配置删除topic创建topic创建一个名字为test的主题, 有三个分区,有两个副本node01执行以下命令来创建topiccd /export/servers/kafka_2.11-1.0.0bin/kafka-topics.sh --create --zookeeper node01:2181 --replication-factor 2 --par原创 2020-10-19 19:54:46 · 131 阅读 · 0 评论 -
kafka的基础入门
kafka的基础入门kafka的基本介绍kafka的优点分布式的发布与订阅系统kafka的主要应用场景kafka的架构介绍kafka架构内部细节剖析kafka主要组件说明kafka当中的producer说明kafka当中的topic说明kafka当中的partition说明kafka当中partition的副本数说明kafka当中的segment说明kafka当中的partition的offsetkafka分区与消费组的关系kafka当中的consumerkafka的基本介绍kafka是最初由linke原创 2020-10-19 10:52:09 · 188 阅读 · 0 评论 -
hadoop基础环境增强
hadoop基础环境增强Hadoop High AvailabilityNamenode HANamenode HA详解Failover ControllerYarn HAHadoop High AvailabilityHA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)原创 2020-10-16 22:12:51 · 473 阅读 · 1 评论 -
oozie基础
oozie基础oozie的介绍oozie的架构oozie的执行流程oozie的组件介绍oozie使用过程当中可能遇到的问题oozie的介绍Oozie是运行在hadoop平台上的一种工作流调度引擎,它可以用来调度与管理hadoop任务,如,MapReduce、Pig等。那么,对于OozieWorkflow中的一个个的action(可以理解成一个个MapReduce任务)Oozie是根据什么来对action的执行时间与执行顺序进行管理调度的呢?答案就是我们在数据结构中常见的有向无环图(DAGDirect A原创 2020-10-13 19:41:05 · 124 阅读 · 0 评论 -
Hue基础
Hue基础Hue的介绍Hue的架构核心功能Hue的安装第一步:下载Hue的压缩包并上传到linux解压第二步:编译安装启动开始配置Hue创建mysql数据库准备进行编译linux系统添加普通用户hue启动hue进程页面访问hue与其他框架的集成hue与hadoop的HDFS以及yarn集成第一步:更改所有hadoop节点的core-site.xml配置第二步:更改所有hadoop节点的hdfs-site.xml第三步:重启hadoop集群第四步:停止hue的服务,并继续配置hue.ini配置hue与hive原创 2020-10-12 21:07:13 · 544 阅读 · 0 评论 -
impala基础入门
impala基础入门impala的介绍imala基本介绍impala与hive的关系impala的优点impala的缺点:impala的架构以及查询计划Impala的架构模块:查询执行frontend生成查询计划分为两个阶段:impala的介绍imala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文原创 2020-10-11 20:02:50 · 365 阅读 · 0 评论 -
网站流量日志数据分析系统(一)
网站流量日志数据分析系统(一)点击流数据模型点击流概念点击流模型生成如何进行网站流量分析网站流量分析模型举例网站流量质量分析(流量分析)网站流量多维度细分(流量分析)网站内容及导航分析(内容分析)网站转化以及漏斗分析(转化分析)流量分析常见分类骨灰级指标基础级指标复合级指标基础分析(PV,IP,UV)来源分析受访分析访客分析转化路径分析点击流数据模型点击流概念点击流(Click Stream)是指用户在网站上持续访问的轨迹。这个概念更注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动原创 2020-10-08 20:17:07 · 1917 阅读 · 0 评论 -
sqoop数据迁移
sqoop数据迁移概述sqoop1与sqoop2架构对比工作机制Sqoop的数据导入列举出所有的数据库导入数据库表数据到HDFS导入到HDFS指定目录导入到hdfs指定目录并指定字段之间的分隔符导入关系表到hive并自动创建hive表导入表数据子集sql语句查找导入hdfs增量导入第一种增量导入使用上面的选项来实现第二种增量导入通过--where条件来实现Sqoop的数据导出hdfs导出到mysql概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:My原创 2020-10-07 22:17:56 · 191 阅读 · 0 评论 -
Flume基本案例
Flume案例采集目录到HDFS需求分析flume配置文件开发启动flume上传文件到指定目录采集文件到HDFS需求分析定义flume的配置文件启动flume开发shell脚本定时追加文件内容采集目录到HDFS需求分析采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素数据源组件,即source ——监控文件目录 : spooldirspooldir特性:1、监视一个目录,只要目录中出现新文件,就会采集文件中原创 2020-10-06 19:50:51 · 118 阅读 · 0 评论 -
日志采集框架Flume
日志采集框架FlumeFlume介绍概述运行机制Flume采集系统结构图Flume介绍概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求,通过对flume的简单配置即可实现Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集原创 2020-10-06 19:16:19 · 371 阅读 · 0 评论 -
Hive的调优
Hive的调优Fetch抓取(Hive可以避免进行MapReduce)表的优化JoinMapJoinGroup ByCount(distinct)使用分区剪裁、列剪裁动态分区调整数据倾斜小文件进行合并适当的增加map数reduce数使用EXPLAIN(执行计划)并行执行严格模式JVM重用推测执行Fetch抓取(Hive可以避免进行MapReduce)Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取em原创 2020-10-05 19:59:24 · 629 阅读 · 0 评论 -
Hive基本概念
Hive基本概念简介什么是 HiveHive的特点Hive架构基本组成Hive使用方式第一种交互方式:Hive交互shell第二种交互方式:Hive JDBC服务第三种交互方式:Hive命令Hive基本操作创建数据库修改数据库查看数据库信息删除数据库创建数据库表简介什么是 HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解原创 2020-09-26 23:05:31 · 109 阅读 · 0 评论 -
数据仓库
数据仓库基本概念主要特征面向主题集成性非易失性(不可更新性)时变性数据仓库与数据库区别数据仓库分层架构数据仓库元数据管理基本概念数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用。主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volat原创 2020-09-24 21:33:06 · 315 阅读 · 0 评论 -
Yarn资源调度
Yarn资源调度简介主要组件介绍与作用主要组件主要组件的作用yarn当中的调度器yarn当中的调度器介绍第一种调度器:FIFO Scheduler (队列调度器)第二种调度器:capacity scheduler(容量调度器,apache版本默认使用的调度器)第三种调度器:Fair Scheduler(公平调度器,CDH版本的hadoop默认使用的调度器)关于yarn常用参数设置简介yarn是hadoop集群当中的资源管理系统模块,管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存)以原创 2020-09-23 22:19:00 · 213 阅读 · 0 评论 -
mapreduce合并小文件
mapreduce合并小文件分析实现自定义InputFromat自定义RecordReader定义mapreduce处理流程分析小文件的优化无非以下几种方式:在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并在mapreduce处理时,可采用combineInputFormat提高效率实现本节实现的是上述第二种方式程序的核心机制:自定义一个InputFormat改写RecordReader,实现一次读取原创 2020-09-22 21:35:06 · 530 阅读 · 0 评论 -
MapReduce运行机制
MapReduce运行机制MapTask运行机制详解以及Map任务的并行度详细步骤:ReduceTask 工作机制以及reduceTask的并行度详细步骤:MapReduceshuffle过程MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默原创 2020-09-17 19:20:12 · 109 阅读 · 0 评论 -
分布式计算框架MapReduce
分布式计算框架MapReduceMapReduce入门MapReduce思想Hadoop MapReduce设计构思MapReduce框架结构MapReduce编程规范MapReduce增强MapReduce的分区与reduceTask的数量MapReduce排序以及序列化3、 MapReduce当中的计数器MapReduce的combinerMapReduce入门MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用原创 2020-09-16 19:48:47 · 225 阅读 · 0 评论 -
HDFS的API操作
这里写目录标题使用文件系统方式访问数据获取FileSystem的几种方式递归遍历文件系统当中的所有文件下载文件到本地hdfs上创建文件夹hdfs文件上传HDFS的小文件合并使用文件系统方式访问数据在 java 中操作 HDFS,主要涉及以下 Class:Configuration:该类的对象封转了客户端或者服务器的配置; FileSystem:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作,通过 FileSystem 的静态方法 get 获得该对象。FileSystem f原创 2020-09-15 21:58:28 · 268 阅读 · 0 评论 -
分布式文件系统HDFS
分布式文件系统HDFSHDFS分布式文件系统设计目标HDFS的架构图之基础架构hdfs的架构之文件的文件副本机制以及block块存储抽象成数据块的好处块缓存HDFS的元数据信息FSimage以及edits和secondaryNN的FSImage与edits详解FSimage文件当中的文件信息查看edits当中的文件信息查看secondarynameNode如何辅助管理FSImage与Edits文件HDFS的文件写入过程HDFS的文件读取过程HDFS分布式文件系统设计目标硬件错误 由于集群很多时候由数原创 2020-09-14 21:17:12 · 165 阅读 · 0 评论 -
HDFS的命令行使用
HDFS的命令行使用hdfs的特性:HDFS的命令行使用基本命令高级命令文件数量的限额清除文件数量限制空间大小的限额清除空间大小的限额hadoop的基准测试测试写入速度测试读取速度清除测试数据hdfs的特性:master/slave架构 :主从架构namenode:主节点,主要用于存储元数据,处理用户的请求datanode:从节点,主要用于存储数据,说白了就是出磁盘的分块存储:把一个大的文件,化成一个个的小的block块,在hadoop2当中一个block块默认是128M的大小100台机器,每原创 2020-09-13 20:14:03 · 141 阅读 · 0 评论 -
hadoop的架构模型
hadoop的架构模型1.x的版本架构模型介绍2.x的版本架构模型介绍第一种:NameNode与ResourceManager单节点架构模型第二种:NameNode单节点与ResourceManager高可用架构模型第三种:NameNode高可用与ResourceManager单节点架构模型第四种:NameNode与ResourceManager高可用架构模型apache版本的hadoop三种运行环境的介绍standAlone环境搭建hadoop 的六个配置文件的作用1.x的版本架构模型介绍文件系统原创 2020-09-11 19:39:14 · 447 阅读 · 0 评论