JIE_ling8-CSDN博客

原创 smart bi 学习

Smartbi：安装部署测试（官方文档）数据连接：关系数据库：选择数据连接选关系数据库——配置连电脑本地的数据库，用户名-密码：root-root 端口：3306，ip：localhost mysql 数据库选的lyj_1 数据库管理：导入表——数据库管理——选表——设置表别名，字段别名。例：表关联关系设置：’ 新建——拖拽——拖拽表关系——添加关系（傻瓜式操作拽）数据准备：业务主题（看做数据仓库）应...

2021-12-23 10:00:07 2676

原创 bigdata_redis缓存数据库

一丶介绍redis 是一个高性能的key-value内存型数据库。特点：支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候自动再次加载进行使用。既支持key-value类型的数据操作，还提供list，set，zset，hash等数据结构的存储。支持数据的主从备份，采用master-slave模式的主从备份。新版3.x也支持分布式布署模式，真正实现了数据块的分布式存储与响应。性能极高–Redis读的速度是11万次/s,写的速度是8万次/s。所有操...

2021-11-18 22:05:47 1499

原创 bigdata_kafka与streaming

一丶Kafka应用鉴于kafka在实际使用时，绝大多数应用场景均为Producer和Consumer的API配合使用，故在此只介绍这两种API操作方法，其它的Connector和Streams还有admin可以视自身情况自行学习。 1.java版实现步骤创建maven项目(done) 加入kafka依赖 producer push message实现 consumerpull message实现效...

2021-11-17 20:14:54 4105 1

原创 bigdata_Kafka

kafka概念介绍：吞吐量：单位时间内处理的数据量。讲求的是单位时间内处理的数据量要大 Zookeeper是什么：概念说明：zk是分布式环境下的第三方协同服务，帮助分布式系统，比如存储、计算、调度等均需要协同服务特点特征：简单、易使用、高效、稳定应用场景：核心是要解决一致性问题分布式环境下的命名一致性问题分布式服务环境下的高可用性问题 HA问题：high available 核心还是一个选举策略问题代码实现 Z

2021-11-16 22:56:33 1119

原创 bigdata_sparkstreaming

一丶概述: 1.数据处理类型分类静态数据多适用于批量计算、离线计算数据源是不变的、有限的、显式离散的流数据数据是变动的、无限的、连续的多适用于实时计算，能在秒级、秒内处理完成实时数据分类小时级分钟级秒级 2.sparkstreaming是什么一句话总结：微批处理的流式(数据)实时计算框架。原理：是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，即可用于处理实时数据流。优点：可以和spar...

2021-11-15 23:07:22 1162

原创 bigdata_sparksql

sparksql: Spark SQL是Spark处理数据的一个模块专门用来处理结构化数据的模块，像json，parquet，avro，csv，普通表格数据等均可。与基础RDD的API不同，Spark SQL中提供的接口将提供给更多关于结构化数据和计算的信息，并针对这些信息，进行额外的处理优化操作方式说明： SparkSql shell：类似于hive shell DataFrames API：最早专为sql on spark设计的数据抽象，与RDD相似，增加了...

2021-11-13 22:05:04 1093

原创 Spark算子

1、算子概述什么是算子实质就是映射算子的重要作用灵活实用 MapReduce 与 Spark算子比较 MapReduce只有2个算子，Map和Reduce，绝大多数应用场景下，均需要复杂编码才能达到用户需求。 Spark有80多个算子，进行充分的组合应用后，能满足绝大多数的应用场景。 1.转换算子(Transformation）此种算子不触发提交作业，只有作业被提交后才会真正启动转换计算。 * Value型转换算子：其处理的数据项是Value型 o 输入分区与输...

2021-11-12 22:25:26 222

原创 Spark 架构，计算

1.架构设计图 2. 用户交互方式 1、spark-shell:spark命令行方式来操作spark作业。多用于简单的学习、测试、简易作业操作。 2、spark-submit:通过程序脚本，提交相关的代码、依赖等来操作spark作业。最多见的提交任务的交互方式，简单易用、参数齐全。 3、spark-sql:通过sql的方式操作spark作业。 sql相关的学习、测试、生产环境研发均可以使用该直接操作交互方式。 4、spark-class:最低层的调用方式，其它调.

2021-11-12 00:18:10 2810

原创 bigdata_scala集合与Spark

一丶scala集合 collection 1 Scala List(列表) 元素以线性方式存储，集合中可以存放重复对象。 2 Scala Set(集合) 集合中的对象不按特定的方式排序，并且没有重复对象。 3 Scala Map(映射) KV对存储 4 Scala 元组元组是不同类型的值的集合 5 Scala Option 表示有可能包含值的容器，也可能不包含值。 6 Scala Iterator迭代器迭代器不是一个容器，更确切的说是逐一访问容器内 1.List 概念：类似数组，内容类型相同，通过泛型约

2021-11-11 00:01:26 553

原创 Scala初识

一丶scala 语言介绍多范式（multi-paradigm）的编程语言，设计初衷是要继承面向对象和函数编程的各种特性。运行在Java虚拟机上，并兼容现有的java程序源代码被编译成Java字节码文件，运行于JVM之上，并可以调用现有的Java类库语言特点面向对象特征特征一种纯面向对象的语言...

2021-11-09 23:26:36 171

原创 SPARK初识

做项目基本流程 3、串联整个流程即标准化及正式上线 2、解决关键性问题 1、梳理数据流程解决关键性问题对比差异点 1、数据的文件组织形式不同 2、数据的数据格式不同相同点数据流程一样数据目标也是一样曝光 Exposure 广告领域专业术语 Pv:page visit,曝光一次即为一个pv。 Uv: uniq visit,或者叫user visit，即用户去重后的统计。 Spark的背景、定义、特点背景 MapReduce计算和磁盘交互 Spark计算和内存交互 Spark速度远远快于Ma..

2021-11-08 23:01:54 230

原创 bigdata_舆情项目完结

一、mysql存储引擎 1. innodb - 有事务，在操作性能上略低于myisam 2. myisam - 无事务，在操作性能是哪个比较高，高于innodb 二、如何证明数据挖掘的效果是准确ok的，可以被信任采纳的 1. 直接证明 2. 间接证明二、maven的项目打包 1. 项目打包分类 - 可运行jar，即rennable jar - All in one 打包的jar - 分离式打包 - 将自己的jar包和依赖的jar分开打 - 非独立运行jar，即depe...

2021-11-08 02:30:00 240

原创 bigdata_舆情项目_开发细节

一.分词UDF编写分词器 c/c++ ICTCLAS Java ansj分词(简单易用) hanLP分词 mmseg IK分词 jieba分词 PaoDing分词天亮分词二.anjs分词器应用集成步骤创建maven项目,导入hadoop-cli依赖,ansj依赖jar包创建一个类, 指定要分词的句子采用nlp分词,具备(用户自定义词典/数字识别/人名识别/机构名识别/新词发现)功能将分词结果返回给一个Term类型的集合变量遍历分

2021-11-04 23:45:46 209

原创 bigdata_舆情热点挖掘项目2

一.scv介绍： Csv Comma-separated-values,逗号分隔值文件二.开发细节与风险控制开发细节当中即伴随着各种各样的风险，并要即时反馈和处理风险，如工作量评估、技术难度评估、人员变更、需求变更等等，故我们将两者放在一起，不可拆分。三.开发细节： 3.1 确定源数据文件集合来源渠道：1.自行写网络爬虫，研发成本高 2.公开数据集 ...

2021-11-03 23:17:01 567

原创 bigdata_舆情热点挖掘项目

一.公司项目开发特点：标准的项目开发的时间配比开发前工作：开发=7：3 互联网公司招人用人做项目的潜规则招3个人，干5个人的活，给4个人的钱。项目需求概述解决什么问题用户需求->系统需求输出：prd，产品需求文档甲方自己写：此要求甲方比较专业乙方自己写：甲方口述需求，乙方进行整理。输入：甲方的工作人员表达的需求内容二.项目需求概述 1.概念：做什么事情(宏观描述）为什么要做（讲清楚原因..

2021-11-02 22:13:55 271

原创采集微博数据ETL项目总结

中小型数据仓库项目的标准开发流程以数据流来驱动项目开发以已下载微博数据ETL项目为例 1、基于定的微博数据目录，拿到该目录下所有的输入数据的文件路径。（技术问题done） 2、基于文件路径，读取文本文件的数据。 3、解析读取出来的文件数据，成为结构化数据-微博博文对象抽象类-ContentPojo，最终获取对应的对象集合。（技术问题done） 4、解析读取出来的文件数据，成为结构化数据-用户对象抽象类-UserPojo, 最终获取对应的对象集合。（技术问题do..

2021-11-01 22:07:36 272

原创 bigdata_ETL结构化项目

1.采集微博数据ETL项目：数据输入与输出输入（两个类别的文件集合）房地产评论主题下的对应的用户基本信息文件集和评论内容文件集，两者之间是通过用户id关联的。通过一定的Java程序设计做数据解析、结构化、各自合并成一个文件即可方便load到hive中。输出（两张表，一个用户表，一个评论内容表）将两个类别下各自对应的文件集，进行解析、结构化。通过load语法，将数据分别导入到两张表当中。思路：通过javase+maven解决数据解析、结构化

2021-10-30 22:22:55 955

原创 bigdata_hive项目

一.数据分析函数习题回顾： sql执行顺序：order<select<group by<where<from 分析函数： 1.row_number:排名，值都为唯一，例如：1,2,3,4,5...。不关心是否有相等情况 2.rank:关心有相等情况，如有相等值，留空位，例如：1,2,2,4,4,6,7,8..... 3.dense_rank: 用于排序，关心相等情况，如遇到相等情况，名次不会留下空位。如1,2,2...

2021-10-29 21:32:35 376

原创 bigdata_hive高级应用

一、数据仓库架构设计 ETL即为load（装载），extract（抽取），transform（转换）二、数据仓库建模 1.

2021-10-29 00:17:05 579

原创 bigdata_hive自定义函数和经典问题

一.UDF 自定义函数，udf为输入一条数据返回一条处理结果，类似cos，sin。步骤（java）：自定义一个java类继承UDF类约定俗成的重写evaluate方法打包类所在项目成一个all-in-one的jar包并上传到hive所在机器在hive中执行add jar操作，将jar加载到classpath中。在hive中创建模板函数，使得后边可以使用该函数名称调用实际的udf函数 hive sql中像调用系统函数一样使用udf函数二.UDAF ...

2021-10-27 23:33:59 164

原创 bigdata_hive进阶

一、hive分区分区操作属于hive操作的重量级操作分区在hdfs上物理结构是目录非严格模式：no~ 表数据删除方法对比说明： drop，delete，truncate 联系：都可以达到删除数据的目标。区别：Drop：把数据和元数据全杀出； delete：按照条件删除数据；（只会删除实体数据） Truncate：截断数据，元数据不动，状态数据会删掉。 ...

2021-10-26 21:00:00 224

原创 bigdata_hive初识

一、hive概念 hive：面向数据分析的存储系统数据仓库和数据库对比分析关系：两者均是用来存储数据的，即均为数据的存储载体。数据仓库也是数据库，是数据库的一种衍生、延深应用。数据仓库的出现，并不是要取代数据库，且当下大部分数据仓库还是用关系数据库管理系统来管理的，即数据库、数据仓库相辅相成、各有千秋。区别：数据库是面向事务的设计，数据仓库是面向主题设计的。数据库是为捕获数据而设计，即实时性强吞吐量弱，数...

2021-10-25 22:40:35 263

原创 bigdata_git版本控制系统

一丶版本控制系统发展集中式VCS 分布式VCS（git）二丶git工作流程图三丶分支管理每个项目确立后可以添加多个分支，分支可以更新版本，只要分支没有合并提交，对其他人没有任何影响，这也是跟svn的不同四丶内部数据存储方式 git统一管理元数据，存放在.git目录中内部数据存储方式五丶git shell应用安装：一般自带，yum install git 可安装配置用户名邮箱：git co...

2021-10-22 21:57:47 301 1

原创 bigdata_yarn进阶

一丶Yarn架构设计，调度策略，等回顾二丶访问Yarn Web UI Yarn-》Applications 任务资源队列，一般一个团队用一个队列三丶HA highavaliable，高可用如何高可用多备份，自动切换，zookeeper会和备份standy沟通，看把谁变成active 四丶Yarn shell应用直接输入...

2021-10-21 20:30:00 212

原创 bigdata_Yarn

一丶习题回顾，注意点工具类的编写和使用分布式计算当中的沙箱机制sandbox 保障数据安全的一种机制，例：在hdfs读取分布式中的文件时，config需要作为参数传入，该任务的所有操作权限均在该目录中完成。 MapReduce中迭代器注意不要重复使用，会造成数据错误或报错。设置压缩格式，代码中，shell中设置reduce数量，shell中设置设置Partition分组条件，代码中设置或s...

2021-10-20 23:57:06 190

原创 bigdata_mapreduce进阶

一丶职业素养，复习回顾 1.遇到业务问题：先解决技术问题例：如何判断一个输入串是数值？ 1）正则表达式 2）强制转换 3）现成的API 例：正则表达式如何使用-常规用法 Java实现正则表达式的核心类 Matcher 其有3个匹配方法 Matches:全部匹配 lookingAt: 前向匹配 find：任意匹配二.wordco...

2021-10-19 23:27:27 178

原创 bigdata_MapReduce总结

一丶知识回顾，hdfs复制文件详解，经典案例文件IO流上传 hdfs上传 HDFS java API 配置问题代码抽象，测试用例并行与并发的区别和联系二丶shell一键登录编写脚本编写登录规则，登录自动跳转到入口机编写验证密码规则，自动输入密码三丶MapReduce初识分布式计算框架MapReduce 基本特点四丶MapReduce运行流程例：WordCount运行流程各split先通过换行符分成键值对，key值为第一位数字的位数..

2021-10-18 22:15:43 151

原创 bigdata_初识hdfs

一丶职业素养干净整洁，日常反思二丶hdfs环境配置 1.maven镜像配置在setting.xml中设置，方便下载（在未改镜像前下载的包可能会报错，再本地库里删掉再重新reload一下就好，小bug），注意pom中也要改 2.hadoop依赖引入 pom.xml中加入，注意修改路径三丶复习javaSE 读取文件 1.代码简单，效率较低利用缓冲流Reader实现 ...

2021-10-17 23:21:12 151

原创大数据 _linux

总结：一.操作系统概述计算机基础操作系统简介二.linux安装：版本： Linux操作系统=内核+系统软件+应用程序 Linux 内核(kernel)版本 Linux发行商，也称为发行套件：Slackware、Redhat、Debian、Fedora、SUSE、CentOS、Ubuntu、红旗 … … Redhat Linux：从Redhat9.0后，不再遵循GPL协议，收费(但是仍然开源) Fedora(Redhat另一个分支)：仍然保持GPL协议，类似Redhat测试版

2021-10-14 11:53:20 1322

原创安装Virtualbox虚拟机没有64位选项如何选择

1 2 3，选择疑难解答 4，点击高级选项 5，点击UEFI固件设置 6，点击重启后找到“Virtualization Technology”，按Enter回车键。 7、选择“Enabled”，按Enter回车键。 8、然后保存重启即可。

2021-10-14 09:49:30 1004

原创 JAVA jsp jstl核心库

EL：最原始的JSP 在html页面中嵌入<% java语句 %> 但是权限太大,功能太强 ,不符合MVC模式的理念因为MVC应该较轻量级,较简单才对以MVC模式设计程序,JSP只是视图，视图的任务就是显示响应，而不是在JSP中做任何关于程序控制和业务逻辑的事情。所以在JSP页面中应该尽可能少的、或者是完全不出现Java代码在JSP中访问模型对象是通过EL表达式的语法来表达。所有EL表达式的格式都是以“${}”表示。用于替换和简化jsp页面中java代码的编写语法

2021-08-19 20:34:11 269

原创 java Servlet、JSP

什么是Servlet 采用JAVA语言编写的服务器端程序，运行在web服务器中的servlet容器中，主要功能是提供请求\响应的web服务模式，生成动态web内容。 servlet的优点： 1.较好的可移植性，无需修改代码就可以部署在多种不同类型的web服务器上。 2.执行效率高，Servlet针对每个请求创建一个线程执行，有更短的响应时间。 3.功能强大，可以与web服务器进行交互 4.使用方便 5.可扩展性强 servlet生命周期可以分为加载、创建、初始化、处理客户请求、卸载 1.加载：容器通过类加载

2021-08-18 22:38:41 363

原创 java jsdom操作

节点操作： Node类型 Document类型 Element类型 Text类型——文本类型 Comment类型 —— 注释类型节点之间的关系节点之间的关系就是嵌套关系（父子关系）、并列关系（兄弟关系）。注意区分节点与元素节点之间的区别。父节点--parentNode 父元素节点--parentElement 子节点--childNodes：标签节点、文本节点、注释节点得到的是伪数组子元素节点--children:标签节点第一个子节点--firstChild:文本 ...

2021-08-13 21:42:33 371

原创 java JavaScript DOM基础

JavaScript变量类型 5种基本类型：unll，undefined，boolean，number，string 1种复杂类型：object 5种引用类型：Array，Object，Function，Date，RegExp 3种基本包装类型：Boolean，Number，String 2种单体内置对象：Global，Math DOM： Document类型：Document类型表示文档。document对象是HTMLDocu...

2021-08-12 22:12:03 247

原创 JAVA js基础

JavaScript：数组：通过数组字面量创建数组例： var arr2 = [1, 3, 4]; length获取数组元素个数；和java相似；获取数组元素： arr[index];' 遍历：for(var i=0; i<arr.length;i++); 跟java不相同的是，可以添加元素，就是说数组不是固定的，会按index添加，如果index存在，会把原来的值覆盖。 push:添加；函数：（函数声明,可以再任何地方调用）声明： function 名字（）{

2021-08-11 20:32:05 190

原创 JAVA css续

盒子模型之外边距 (1)、外边距 margin属性用于设置外边距。设置外边距会在元素之间创建“空白”，这段空白通常不能放置其他内容。 margin-top:上外边距 margin-right:右外边距 margin-bottom:下外边距 margin-left:上外边距 margin:上外边距右外边距下外边距左外边取值顺序跟内边距相同。 (2)、外边距实现盒子居中可以让一个盒子实现水平居中，需要满足一下两个条件： 1、必须是块级元素。 2、盒子必须指定了宽度（wid

2021-08-09 21:55:21 253

原创 JAVAhtml，css

CSS初识：样式表：内部样式表内嵌式是将CSS代码集中写在HTML文档的head头部标签中，并且用style标签定义，其基本语法格式如下： <head> <style type="text/CSS"> 选择器 {属性1:属性值1; 属性2:属性值2; 属性3:属性值3;} </style> </head> 总结： 1. 语法中，style标签一般位于head标签中title标签之后，也可以把他放在HTML文档的任何地方。 2....

2021-08-08 13:55:04 291

原创 JAVA html续

链接标签 a标签： <a href="跳转目标" target="目标窗口的弹出方式">文本或图像</a> 锚点定位(难点)：通过创建锚点链接，用户能够快速定位到目标内容。创建锚点链接分为两步： 1.使用<a href=”id名”>创建链接文本(被点击的)</a> 例如：<a href="#two"> 2.使用相应的id名标注跳转目标的位置例如：<h3 id="two">第2集</h3> 列

2021-08-05 19:37:43 168

原创 JAVAhtml基础

常见的浏览器内核（1）Trident(IE内核) 国内很多的双核浏览器的其中一核便是Trident，美其名曰"兼容模式"。代表：IE、傲游、世界之窗浏览器、Avant、腾讯TT、猎豹安全浏览器、360极速浏览器、百度浏览器等。Window10开始，IE将其内置浏览器命名为Edge，Edge最显著的特点就是新内核 EdgeHTML。（2）Gecko( firefox) Gecko(Firefox 内核)：Mozilla FireFox(火狐浏览器) 采用该内核，Gecko的特点是代码完全公开，因

2021-08-04 20:34:27 244

原创 JAVA JDBC基础

DriverManager.getConnection() 方法用于获得试图建立到指定数据库 URL 的连接。DriverManager 试图从已注册的 JDBC 驱动程序集中选择一个适当的驱动程序. connection是用于将java和数据库连接的类 statement是一个接口，提供了向数据库发送执行语句和获取结果的方法 resultset是接口是用来创建存放从数据库里得到的结果的对象为什么PreparedStatement能防止sql注入呢？ sql注入的最重要原因是前端的参数被作为sq.

2021-08-03 08:40:03 163

空空如也

空空如也