大数据基础篇
TT15751097576
这个作者很懒,什么都没留下…
展开
-
数据湖
什么是数据湖?数据湖是一个集中式存储库,允许您以任意存储规模存储所有结构化或非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 - 从控制面板和可视化到大数据处理,实时分析和机器学习,以指导做出更好的决策 。用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。EDL,企业级数据湖(原始数据的保存区)。...原创 2019-11-12 01:41:25 · 342 阅读 · 0 评论 -
Hive窗口函数
窗口函数:窗口函数指的就是每一条数据的窗口 OVER(),如果over()里面没有约束,则表示整张表的窗口(全表)。over():指定分析函数工作的数据窗口大小,这个数据窗口大小可能回随着行的变化而变化current row:当前行,UNBOUNDED PRECEDING 表示从前面的起点,UNBOUNDEDFOLLOWING 表示到后面的终点n preceding: 往前 n 行数据...原创 2019-10-31 00:45:51 · 195 阅读 · 0 评论 -
Hive行列式转换
Hive行转列coacat(string A/col,string B/col…):返回输入字符串连接后的结果,支持人一个输入字符串;//查询语句select concat(deptid,dname) from dept;//返回结果就是连接多个列select concat(deptid,",",dname) from dept;concat_ws(separator,str1,st...原创 2019-10-30 23:13:37 · 227 阅读 · 0 评论 -
删除kafka中的表头数据(过滤器)
删除kafka中的表头数据(过滤器)先打开kafka命令//到kafka的bin目录下[root@bigdata bin]# cd /opt/bigdata/kafka010/bin///查看kafka中的表 [root@bigdata bin]# ./kafka-topics.sh --zookeeper 127.0.0.1:2181 -list__consumer_offsets...原创 2019-10-22 02:04:03 · 554 阅读 · 0 评论 -
kafka stream(kafka流处理)
kafka stream(kafka流处理)问题:1)列转化问题(列转化行)user_attendees friend_id//打开zookeeper[root@bigdata bin]# zkServer.sh start//启动kafka[root@bigdata bin]# ./kafka-server-start.sh ../config/server.proper...原创 2019-10-22 00:11:46 · 660 阅读 · 0 评论 -
Springboot连接Python爬取网站信息
Python的requests模块的使用解决pip更新问题。 You are using pip version 19.0.3, however version 19.1 is available.当直接输入python -m pip install --upgrade pip更新还报错的时候,输入命令:python -m pip install -U pipCollecting p...原创 2019-10-18 01:41:42 · 1208 阅读 · 0 评论 -
Spark 连接 KafKa
Spark 连接 KafKa数据的流程与细节方向前几天把数据导入kafka中,现在要把数据从kafka中使用Scala将数据导入数据仓库;新建maven工程(基础步骤),在开百度中打开maven工程–>找到kafka的jar导入scala框架<dependency> <groupId>org.apache.kafka</groupId&g...原创 2019-10-16 02:07:36 · 498 阅读 · 0 评论 -
Python安装与Sublime Text3搭建Python开发环境及常用插件安装
Python安装与Sublime Text3搭建Python开发环境及常用插件安装第一步:下载Python安装包第二部:安装A)双击下载好的安装包,弹出如下界面:这里要注意的是,将Python加入到windows的环境变量中,如果忘记勾选,则需要向java一样配置环境变量。在这里我选择的是自定义安装,点击"自定义安装"惊醒下一步操作;B)进入到下一步之后,选择需要安装的组件,然...原创 2019-10-16 02:01:59 · 740 阅读 · 1 评论 -
scala伴生类与伴生对象
scala伴生类与伴生对象伴生对象快速入门的分析:object TestChildGame { def main(args: Array[String]): Unit = { /* *Scala中静态的概念--伴生对象 * Scala语言是完全面向对象的(万物皆对象)语言,所以并没有静态的操作 * (即在Scala中没有静态的概念(Java中publ...原创 2019-10-13 23:43:43 · 414 阅读 · 0 评论 -
基于spark Graph X的图形数据分析
基于spark Graph X的图形数据分析理解Spark Graph X数据模型理解SparkGraphX API理解Spark Graph X 图算法 PageRank理解Spark Graph X Prege许多大数据以大规模图或网络的形式呈现的许多非图结构的大数据Neo4j 专门用于图形数据库列数据库是按照列来存储数据,行式数据库式按照几张表来存储...原创 2019-10-13 14:46:36 · 547 阅读 · 0 评论 -
Spark SQL架构
Spark SQL架构Spark技术栈(Spark生态站):Spark SQL主要是对信息的处理,包括数据转化,数据抽取Spark周边有Python/Scala/java/MLLib/等等Spark可以集成Hive,Json,CSV,parqueet,JDBC,HBase,Other等等Catalyst优化器是Spark SQL的核心。Dataset与Frame的区别:???使用C...原创 2019-10-13 14:43:30 · 477 阅读 · 0 评论 -
安装Kafka与flume联合使用
安装Kafka与flume联合使用Kafka的作用:消峰(消息队列,先进先出)scala写的消息队列,常用于日志。消息队列简单理解就是生产者把实时性不强的数据丢入队列,消费者从队列中取出并处理。比如秒杀时可以把非常多的请求写入队列,再依次取出。很多程序都需要写日志,可以先写入kafka,再依次写入数据库,可以提高主程序性能和解耦Kafka是linkedin开源的MQ系统,主要特点是基于Pu...原创 2019-10-10 02:20:14 · 464 阅读 · 0 评论 -
Spark 算子
Spark大数据计算框架Spark(火花)出现不全是代替Map Reduce,里面有批处理(Spark运行在内存中,Map Reduce运行在硬盘中,根据自身情况选择适应的开发环境(比如:机器的数量,配置,资金等等))了解Hadoop发展历史:2011年发布1.0版本,2012年发布稳定版,2013年发布2.X版本(里面出现了Yarn,得以重用)2012年版本中MR的缺点:mr基于数据集...原创 2019-10-07 20:18:59 · 501 阅读 · 1 评论 -
聊大数据概括
聊大数据概括1.需求分析(业务)做各种业务的最终目标是什么?分割子目标 (特征方面考虑)【建模(提取特征–> 有业务专家和算法专家来做的)】2.数仓设计应用(国内是应用,国外是数据文件(数据壶))(日志、记录等等)近源层明细层里面有几种表: 1.维度表(观察一件事情有很多个角度(维度升维)维度多的时候需要降维(维度降维)) 2.事...原创 2019-10-01 00:50:53 · 203 阅读 · 0 评论 -
门清Scala高阶函数
门清Scala高阶函数,函数是Scala中最重要的重点把函数体看成变量工厂方法 工厂变量 简单工厂object MyhHello { //高阶函数最简单的工厂模式 var humber = ()=>{ //可以连接数据库,HBase,masql等等 "我是汉堡包" } var checken = ()=> "我是鸡翅膀" def ...原创 2019-09-30 11:18:36 · 274 阅读 · 0 评论 -
Scala语言学习
Scala语言引言:其实代码没有你想象那么难,但是如果你想不到哪里去,就会很难.学习一个技术或知识点的流程:大数据技术生态体系学习Scala的原因: 1)Spara新一代内存级大数据框架,是大数据的重要内容。 2)Spark就是使用Scala编写的,因此为了更好的学习Spark,需要掌握Scala这门语言。 3)Scala是Scalable Language的简写,是一门多...原创 2019-09-30 10:41:12 · 956 阅读 · 0 评论 -
安装 flume
安装 flume说明:后期我们拿到大量的数据,不一定都是csv,数据库,图形文件,二进制文件,序列化文件,txt等等,比较混乱,就要在初期由预谋的把它转换成数据库文件或者其他的统一文件类型。把一个非结构化数据,主键转化成结构化数据的文件,方便我们查,分析统计等等flume就是帮助我们搜集数据,并且进行简单的数据过滤。然后自由的把数据放到你想要的地方(控制台输出,卡夫卡,jdbc数据库里面也行,...原创 2019-09-29 23:51:44 · 236 阅读 · 0 评论 -
Scala中的foreach 和 map 方法比较
Scala中的集合对象都有fireach和map量方法。**相同:**都属于遍历集合对象,并对每一项执行指定的方法。**相异:**foreach无返回值(准确的说返回void),map返回集合对象。下列代码中,b.getClass得到的是void,而c.getClass得到的是colletion。,foreach和map运行结果一致。结论就是:foreach无法代替map而map方法可以代...原创 2019-09-28 21:18:50 · 672 阅读 · 0 评论 -
Scala细节总结(一)
前言:数组过滤scala> var c = List(1,2,3,4)acala> c.filter //.filter表示过滤的意思res1: List [Int] = List(2,4)//过滤出来的结果scala> val ss = "hello world"//简单字符串scala> ss.contains//表示包含的字符串 def contain...原创 2019-09-28 18:00:30 · 269 阅读 · 0 评论