自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 收藏
  • 关注

原创 smart bi 学习

Smartbi:安装部署测试(官方文档)数据连接:关系数据库:选择数据连接选关系数据库——配置连电脑本地的数据库,用户名-密码:root-root 端口:3306,ip:localhost mysql 数据库选的lyj_1数据库管理:导入表——数据库管理——选表——设置表别名,字段别名。例:表关联关系设置:’新建——拖拽——拖拽表关系——添加关系(傻瓜式操作拽)数据准备:业务主题(看做数据仓库)应...

2021-12-23 10:00:07 2299

原创 bigdata_redis缓存数据库

一丶介绍redis 是一个高性能的key-value内存型数据库。 特点:支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候自动再次加载进行使用。既支持key-value类型的数据操作,还提供list,set,zset,hash等数据结构的存储。支持数据的主从备份,采用master-slave模式的主从备份。新版3.x也支持分布式布署模式,真正实现了数据块的分布式存储与响应。性能极高–Redis读的速度是11万次/s,写的速度是8万次/s。所有操...

2021-11-18 22:05:47 1343

原创 bigdata_kafka与streaming

一丶Kafka应用 鉴于kafka在实际使用时,绝大多数应用场景均为Producer和Consumer的API配合使用,故在此只介绍这两种API操作方法,其它的Connector和Streams还有admin可以视自身情况自行学习。 1.java版 实现步骤 创建maven项目(done) 加入kafka依赖 producer push message实现 consumerpull message实现 效...

2021-11-17 20:14:54 3761 1

原创 bigdata_Kafka

kafka概念介绍: 吞吐量:单位时间内处理的数据量。讲求的是单位时间内处理的数据量要大 Zookeeper是什么: 概念说明:zk是分布式环境下的第三方协同服务,帮助分布式系统,比如存储、计算、调度等均需要协同服务 特点特征:简单、易使用、高效、稳定 应用场景:核心是要解决一致性问题 分布式环境下的命名一致性问题 分布式服务环境下的高可用性问题 HA问题:high available 核心还是一个选举策略问题 代码实现 Z

2021-11-16 22:56:33 991

原创 bigdata_sparkstreaming

一丶概述: 1.数据处理类型分类静态数据多适用于批量计算、离线计算数据源是不变的、有限的、显式离散的流数据数据是变动的、无限的、连续的多适用于实时计算,能在秒级、秒内处理完成实时数据分类小时级分钟级秒级 2.sparkstreaming是什么一句话总结:微批处理的流式(数据)实时计算框架。原理:是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,即可用于处理实时数据流。 优点:可以和spar...

2021-11-15 23:07:22 1036

原创 bigdata_sparksql

sparksql:Spark SQL是Spark处理数据的一个模块专门用来处理结构化数据的模块,像json,parquet,avro,csv,普通表格数据等均可。与基础RDD的API不同,Spark SQL中提供的接口将提供给更多关于结构化数据和计算的信息,并针对这些信息,进行额外的处理优化操作方式说明: SparkSql shell:类似于hive shell DataFrames API:最早专为sql on spark设计的数据抽象,与RDD相似,增加了...

2021-11-13 22:05:04 965

原创 Spark算子

1、算子概述什么是算子实质就是映射算子的重要作用灵活实用MapReduce 与 Spark算子比较MapReduce只有2个算子,Map和Reduce,绝大多数应用场景下,均需要复杂编码才能达到用户需求。Spark有80多个算子,进行充分的组合应用后,能满足绝大多数的应用场景。1.转换算子(Transformation)此种算子不触发提交作业,只有作业被提交后才会真正启动转换计算。* Value型转换算子:其处理的数据项是Value型​ o 输入分区与输...

2021-11-12 22:25:26 108

原创 Spark 架构,计算

1.架构设计图2.用户交互方式1、spark-shell:spark命令行方式来操作spark作业。 多用于简单的学习、测试、简易作业操作。 2、spark-submit:通过程序脚本,提交相关的代码、依赖等来操作spark作业。 最多见的提交任务的交互方式,简单易用、参数齐全。 3、spark-sql:通过sql的方式操作spark作业。 sql相关的学习、测试、生产环境研发均可以使用该直接操作交互方式。 4、spark-class:最低层的调用方式,其它调.

2021-11-12 00:18:10 2655

原创 bigdata_scala集合与Spark

一丶scala集合collection1 Scala List(列表) 元素以线性方式存储,集合中可以存放重复对象。2 Scala Set(集合) 集合中的对象不按特定的方式排序,并且没有重复对象。3 Scala Map(映射) KV对存储4 Scala 元组 元组是不同类型的值的集合5 Scala Option 表示有可能包含值的容器,也可能不包含值。6 Scala Iterator迭代器 迭代器不是一个容器,更确切的说是逐一访问容器内1.List概念:类似数组,内容类型相同,通过泛型约

2021-11-11 00:01:26 451

原创 Scala初识

一丶scala语言介绍 多范式(multi-paradigm)的编程语言,设计初衷是要继承面向对象和函数编程的各种特性。 运行在Java虚拟机上,并兼容现有的java程序 源代码被编译成Java字节码文件,运行于JVM之上,并可以调用现有的Java类库 语言特点 面向对象特征特征 一种纯面向对象的语言...

2021-11-09 23:26:36 67

原创 SPARK初识

做项目基本流程3、串联整个流程即标准化及正式上线2、解决关键性问题1、梳理数据流程解决关键性问题对比差异点1、数据的文件组织形式不同2、数据的数据格式不同相同点数据流程一样数据目标也是一样曝光Exposure广告领域专业术语Pv:page visit,曝光一次即为一个pv。Uv: uniq visit,或者叫user visit,即用户去重后的统计。Spark的背景、定义、特点背景MapReduce计算和磁盘交互Spark计算和内存交互Spark速度远远快于Ma..

2021-11-08 23:01:54 119

原创 bigdata_舆情项目完结

一、mysql存储引擎1. innodb- 有事务,在操作性能上略低于myisam2. myisam- 无事务,在操作性能是哪个比较高,高于innodb二、如何证明数据挖掘的效果是准确ok的,可以被信任采纳的1. 直接证明2. 间接证明二、maven的项目打包1. 项目打包分类- 可运行jar,即rennable jar - All in one 打包的jar - 分离式打包 - 将自己的jar包和依赖的jar分开打- 非独立运行jar,即depe...

2021-11-08 02:30:00 142

原创 bigdata_舆情项目_开发细节

一.分词UDF编写分词器c/c++ ICTCLAS Java ansj分词(简单易用) hanLP分词 mmseg IK分词 jieba分词 PaoDing分词 天亮分词 二.anjs分词器应用集成步骤创建maven项目,导入hadoop-cli依赖,ansj依赖jar包 创建一个类, 指定要分词的句子 采用nlp分词,具备(用户自定义词典/数字识别/人名识别/机构名识别/新词发现)功能 将分词结果返回给一个Term类型的集合变量 遍历分

2021-11-04 23:45:46 103

原创 bigdata_舆情热点挖掘项目2

一.scv介绍: Csv Comma-separated-values,逗号分隔值文件 二.开发细节与风险控制开发细节当中即伴随着各种各样的风险,并要即时反馈和处理风险,如工作量评估、技术难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分。三.开发细节: 3.1 确定源数据文件集合 来源渠道:1.自行写网络爬虫,研发成本高 2.公开数据集 ...

2021-11-03 23:17:01 355

原创 bigdata_舆情热点挖掘项目

一.公司项目开发特点:标准的项目开发的时间配比 开发前工作:开发=7:3 互联网公司招人用人做项目的潜规则 招3个人,干5个人的活,给4个人的钱。 项目需求概述 解决什么问题 用户需求->系统需求 输出:prd,产品需求文档 甲方自己写:此要求甲方比较专业 乙方自己写:甲方口述需求,乙方进行整理。 输入:甲方的工作人员表达的需求内容 二.项目需求概述 1.概念:做什么事情(宏观描述)为什么要做(讲清楚原因..

2021-11-02 22:13:55 145

原创 采集微博数据ETL项目总结

中小型数据仓库项目的标准开发流程 以数据流来驱动项目开发 以已下载微博数据ETL项目为例 1、基于定的微博数据目录,拿到该目录下所有的输入数据的文件路径。(技术问题done) 2、基于文件路径,读取文本文件的数据。 3、解析读取出来的文件数据,成为结构化数据-微博博文对象抽象类-ContentPojo,最终获取对应的对象集合。(技术问题done) 4、解析读取出来的文件数据,成为结构化数据-用户对象抽象类-UserPojo, 最终获取对应的对象集合。(技术问题do..

2021-11-01 22:07:36 187

原创 bigdata_ETL结构化项目

1.采集微博数据ETL项目:数据输入与输出 输入(两个类别的文件集合) 房地产评论主题下的对应的用户基本信息文件集和评论内容文件集,两者之间是通过用户id关联的。 通过一定的Java程序设计做数据解析、结构化、各自合并成一个文件即可方便load到hive中。 输出(两张表,一个用户表,一个评论内容表) 将两个类别下各自对应的文件集,进行解析、结构化。 通过load语法,将数据分别导入到两张表当中。 思路: 通过javase+maven解决数据解析、结构化

2021-10-30 22:22:55 746

原创 bigdata_hive项目

一.数据分析函数习题回顾:sql执行顺序:order<select<group by<where<from分析函数: 1.row_number:排名,值都为唯一,例如:1,2,3,4,5...。不关心是否有相等情况 2.rank:关心有相等情况,如有相等值,留空位,例如:1,2,2,4,4,6,7,8..... 3.dense_rank: 用于排序,关心相等情况,如遇到相等情况,名次不会留下空位。如1,2,2...

2021-10-29 21:32:35 273

原创 bigdata_hive高级应用

一、数据仓库架构设计 ETL即为load(装载),extract(抽取),transform(转换)二、数据仓库建模 1.

2021-10-29 00:17:05 457

原创 bigdata_hive自定义函数和经典问题

一.UDF 自定义函数,udf为输入一条数据返回一条处理结果,类似cos,sin。 步骤(java):自定义一个java类 继承UDF类 约定俗成的重写evaluate方法 打包类所在项目成一个all-in-one的jar包并上传到hive所在机器 在hive中执行add jar操作,将jar加载到classpath中。 在hive中创建模板函数,使得后边可以使用该函数名称调用实际的udf函数 hive sql中像调用系统函数一样使用udf函数二.UDAF...

2021-10-27 23:33:59 88

原创 bigdata_hive进阶

一、hive分区 分区操作属于hive操作的重量级操作 分区在hdfs上物理结构是目录 非严格模式:no~表数据删除方法对比说明: drop,delete,truncate 联系:都可以达到删除数据的目标。 区别:Drop:把数据和元数据全杀出; delete:按照条件删除数据;(只会删除实体数据) Truncate:截断数据,元数据不动,状态数据会删掉。 ...

2021-10-26 21:00:00 137

原创 bigdata_hive初识

一、hive概念 hive:面向数据分析的存储系统 数据仓库和数据库对比分析 关系:两者均是用来存储数据的,即均为数据的存储载体。 数据仓库也是数据库,是数据库的一种衍生、延深应用。 数据仓库的出现,并不是要取代数据库,且当下大部分数据仓库还是用关系数据库管理系统来管理的,即数据库、数据仓库相辅相成、各有千秋。 区别: 数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库是为捕获数据而设计,即实时性强吞吐量弱,数...

2021-10-25 22:40:35 155

原创 bigdata_git版本控制系统

一丶版本控制系统发展 集中式VCS 分布式VCS(git)二丶git工作流程图 三丶分支管理 每个项目确立后可以添加多个分支,分支可以更新版本,只要分支没有合并提交,对其他人没有任何影响,这也是跟svn的不同四丶内部数据存储方式 git统一管理元数据,存放在.git目录中内部数据存储方式五丶git shell应用 安装:一般自带,yum install git 可安装 配置用户名邮箱:git co...

2021-10-22 21:57:47 109 1

原创 bigdata_yarn进阶

一丶Yarn架构设计,调度策略,等回顾二丶访问Yarn Web UI Yarn-》Applications 任务资源队列,一般一个团队用一个队列三丶HA highavaliable,高可用 如何高可用 多备份, 自动切换,zookeeper会和备份standy沟通,看把谁变成active四丶Yarn shell应用 直接输入...

2021-10-21 20:30:00 128

原创 bigdata_Yarn

一丶习题回顾,注意点 工具类的编写和使用 分布式计算当中的沙箱机制sandbox 保障数据安全的一种机制,例:在hdfs读取分布式中的文件时,config需要作为参数传入,该任务的所有操作权限均在该目录中完成。 MapReduce中迭代器注意不要重复使用,会造成数据错误或报错。 设置压缩格式,代码中,shell中 设置reduce数量,shell中设置 设置Partition分组条件,代码中设置或s...

2021-10-20 23:57:06 105

原创 bigdata_mapreduce进阶

一丶职业素养,复习回顾 1.遇到业务问题:先解决技术问题 例:如何判断一个输入串是数值? 1) 正则表达式 2) 强制转换 3) 现成的API 例:正则表达式如何使用-常规用法 Java实现正则表达式的核心类 Matcher 其有3个匹配方法 Matches:全部匹配 lookingAt: 前向匹配 find:任意匹配 二.wordco...

2021-10-19 23:27:27 105

原创 bigdata_MapReduce总结

一丶知识回顾,hdfs复制文件详解,经典案例文件IO流上传 hdfs上传 HDFS java API 配置问题 代码抽象,测试用例 并行与并发的区别和联系二丶shell一键登录编写脚本 编写登录规则,登录自动跳转到入口机 编写验证密码规则,自动输入密码三丶MapReduce初识分布式计算框架MapReduce 基本特点 四丶MapReduce运行流程例:WordCount运行流程各split先通过换行符分成键值对,key值为第一位数字的位数..

2021-10-18 22:15:43 71

原创 bigdata_初识hdfs

一丶职业素养 干净整洁,日常反思二丶hdfs环境配置 1.maven镜像配置 在setting.xml中设置,方便下载(在未改镜像前下载的包可能会报错,再本地库里删掉再重新reload一下就好,小bug),注意pom中也要改 2.hadoop依赖引入 pom.xml中加入,注意修改路径三丶复习javaSE 读取文件 1.代码简单,效率较低 利用缓冲流Reader实现 ...

2021-10-17 23:21:12 78

原创 大数据 _linux

总结:一.操作系统概述计算机基础操作系统简介二.linux安装:版本:Linux操作系统=内核+系统软件+应用程序 Linux 内核(kernel)版本 Linux发行商,也称为发行套件:Slackware、Redhat、Debian、Fedora、SUSE、CentOS、Ubuntu、红旗 … … Redhat Linux:从Redhat9.0后,不再遵循GPL协议,收费(但是仍然开源) Fedora(Redhat另一个分支):仍然保持GPL协议,类似Redhat测试版

2021-10-14 11:53:20 1172

原创 安装Virtualbox虚拟机没有64位选项如何选择

123,选择疑难解答4,点击高级选项5,点击UEFI固件设置6,点击重启后找到“Virtualization Technology”,按Enter回车键。7、选择“Enabled”,按Enter回车键。8、然后保存重启即可。

2021-10-14 09:49:30 797

原创 JAVA jsp jstl核心库

EL:最原始的JSP 在html页面中嵌入<% java语句 %> 但是 权限太大,功能太强 ,不符合MVC模式的理念 因为MVC应该较轻量级,较简单才对以MVC模式设计程序,JSP只是视图,视图的任务就是显示响应,而不是在JSP中做任何关于程序控制和业务逻辑的事情。所以在JSP页面中应该尽可能少的、或者是完全不出现Java代码在JSP中访问模型对象是通过EL表达式的语法来表达。所有EL表达式的格式都是以“${}”表示。用于替换和简化jsp页面中java代码的编写 语法

2021-08-19 20:34:11 120

原创 java Servlet、JSP

什么是Servlet采用JAVA语言编写的服务器端程序,运行在web服务器中的servlet容器中,主要功能是提供请求\响应的web服务模式,生成动态web内容。servlet的优点:1.较好的可移植性,无需修改代码就可以部署在多种不同类型的web服务器上。2.执行效率高,Servlet针对每个请求创建一个线程执行,有更短的响应时间。3.功能强大,可以与web服务器进行交互4.使用方便5.可扩展性强servlet生命周期可以分为加载、创建、初始化、处理客户请求、卸载1.加载:容器通过类加载

2021-08-18 22:38:41 252

原创 java jsdom操作

节点操作:Node类型 Document类型 Element类型 Text类型——文本类型 Comment类型 —— 注释类型节点之间的关系节点之间的关系就是嵌套关系(父子关系)、并列关系(兄弟关系)。注意区分节点与元素节点之间的区别。父节点--parentNode父元素节点--parentElement子节点--childNodes:标签节点、文本节点、注释节点得到的是伪数组子元素节点--children:标签节点第一个子节点--firstChild:文本...

2021-08-13 21:42:33 245

原创 java JavaScript DOM基础

JavaScript变量类型 5种基本类型:unll,undefined,boolean,number,string 1种复杂类型:object 5种引用类型:Array,Object,Function,Date,RegExp 3种基本包装类型:Boolean,Number,String 2种单体内置对象:Global,MathDOM:Document类型:Document类型表示文档。document对象是HTMLDocu...

2021-08-12 22:12:03 142

原创 JAVA js基础

JavaScript:数组:通过数组字面量创建数组例:var arr2 = [1, 3, 4];length获取数组元素个数;和java相似;获取数组元素:arr[index];'遍历:for(var i=0; i<arr.length;i++);跟java不相同的是,可以添加元素,就是说数组不是固定的,会按index添加,如果index存在,会把原来的值覆盖。push:添加;函数:(函数声明,可以再任何地方调用)声明:function 名字(){

2021-08-11 20:32:05 99

原创 JAVA css续

盒子模型之外边距(1)、外边距margin属性用于设置外边距。 设置外边距会在元素之间创建“空白”, 这段空白通常不能放置其他内容。margin-top:上外边距margin-right:右外边距margin-bottom:下外边距margin-left:上外边距margin:上外边距 右外边距 下外边距 左外边取值顺序跟内边距相同。(2)、外边距实现盒子居中可以让一个盒子实现水平居中,需要满足一下两个条件:1、必须是块级元素。 2、盒子必须指定了宽度(wid

2021-08-09 21:55:21 154

原创 JAVAhtml,css

CSS初识:样式表:内部样式表内嵌式是将CSS代码集中写在HTML文档的head头部标签中,并且用style标签定义,其基本语法格式如下:<head><style type="text/CSS"> 选择器 {属性1:属性值1; 属性2:属性值2; 属性3:属性值3;}</style></head>总结:1. 语法中,style标签一般位于head标签中title标签之后,也可以把他放在HTML文档的任何地方。2....

2021-08-08 13:55:04 180

原创 JAVA html续

链接标签a标签:<a href="跳转目标" target="目标窗口的弹出方式">文本或图像</a>锚点定位(难点):通过创建锚点链接,用户能够快速定位到目标内容。创建锚点链接分为两步:1.使用<a href=”id名”>创建链接文本(被点击的)</a> 例如:<a href="#two"> 2.使用相应的id名标注跳转目标的位置例如:<h3 id="two">第2集</h3>列

2021-08-05 19:37:43 75

原创 JAVAhtml基础

常见的浏览器内核(1)Trident(IE内核) 国内很多的双核浏览器的其中一核便是Trident,美其名曰"兼容模式"。代表:IE、傲游、世界之窗浏览器、Avant、腾讯TT、猎豹安全浏览器、360极速浏览器、百度浏览器等。Window10开始,IE将其内置浏览器命名为Edge,Edge最显著的特点就是新内核 EdgeHTML。(2)Gecko( firefox) Gecko(Firefox 内核):Mozilla FireFox(火狐浏览器) 采用该内核,Gecko的特点是代码完全公开,因

2021-08-04 20:34:27 116

原创 JAVA JDBC基础

DriverManager.getConnection() 方法用于获得试图建立到指定数据库 URL 的连接。DriverManager 试图从已注册的 JDBC 驱动程序集中选择一个适当的驱动程序.connection是用于将java和数据库连接的类statement是一个接口,提供了向数据库发送执行语句和获取结果的方法resultset是接口是用来创建存放从数据库里得到的结果的对象 为什么PreparedStatement能防止sql注入呢?sql注入的最重要原因是前端的参数被作为sq.

2021-08-03 08:40:03 72

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除