自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 根据用户名称实现单点登录

修改SecurityConfig 放行我们的请求登录路径 并把自定义认证加进来。注意:LoginBody新增变量accessToken。添加IAuthenticationProvider。Controller层。

2024-03-04 15:37:46 1272

原创 求一个月内某个字段平均值

求一个月内某个字段平均值

2022-11-04 10:12:19 393 1

原创 查询曲线SQL

查询曲线SQL

2022-11-03 16:54:36 515

原创 根据年月获得月的天数

根据年月获得月的天数

2022-11-03 16:52:20 213

原创 根据年月获取整月所有月份

根据年月获取整月所有月份

2022-11-03 16:51:23 302

原创 MYSQL SUM求和时 空设置成0

MySQL sum求和 空为0

2022-11-03 16:50:04 891

原创 pdf文件上传 生成图片进行保存

后台管理上传文件,接收到文件后,判断后缀是否是PDF,如果是PDF则生成图片进行保存

2022-07-20 15:48:17 115

原创 使用springboot框架和若依开发中常用注解

1、@SpringBootApplication这个注解是SpringBoot项目的基石,创建SpringBoot项目之后会默认在主类加上。@SpringBootApplicationpublicclassStudyApplication{publicstaticvoidmain(String[]args){SpringApplication.run(StudyApplication.class,args);}}可以把@Sprin...

2021-12-13 14:02:36 2131

原创 小时级实时数据仓库构建方法及注意知识点

小时级实时数据仓库构建的开发流程 1、找到数据流(done) 2、将数据源进行有序化排序处理,模拟最真实的微博数据流的真实数据的生产过程。 3、接收微博数据流数据 4、转发到kafka集群 5、kafka集群的搭建与运维(done) 6、消费kafka形成小时级的微博数据文件 7、将小时级文件定期、自动化load到小时级微博数据分区表 小时级实时数据仓库构建的详细开发过程 1、找到数据流(done) 2、将数据源进行有序化排序处理,模拟最真实的微博数据流的真实数据的生产

2021-11-23 22:10:29 1711

原创 hbase

1、hadoop database的简称hbase是一个数据模型,属于hadoop生态系统的一部分,提供对海量数据的随机实时读/写访问。构建在hadoop之hdfs之上,分布式面向列的数据库参考谷歌的bigtable数据库设计,拥有hdfs的分块存储、冗余、容错的优良特性。完全开源、优秀的横向扩展性。2、hbase与hdfs对比说明HDFS:适于储存大文件的分布式文件系统 不支持快速单独记录查找,即顺序访问 批量任务处理,吞吐量高、时延实时性差...

2021-11-19 22:29:50 1818

原创 redis

性能 存储性能 计算性能 而我们一般说的高性能,默认是指计算性能。 集群的组织模式 1、主从备份集群 主和从节点数据是一样的。 相当于多了一个数据备份的保障。 多个人同时相同的事情,每人做了一次。 比如:mysql cluster,redis,ssdb等。 2、主从分布式集群 主和从节点数据是不一样的。 往往是主节点管理,从节点做具体工作。 比如hdfs,yarn,mapreduce,spark等。 3、去中心化分布

2021-11-18 21:00:45 13328

原创 Kafka进阶

Producer 负责生成消息,并把消息push到broker集群中。 该角色显式知道应该push到broker集群中的哪个或哪几个broker当中 Broker 负责接收生产者push过来的消息,存储到所在的机器文件中 ConsumerGroup 每个Consumer属于一个特定的Consumer Group。 一条消息可以发送到多个不同的Consumer Group,但是一个Consumer Group中...

2021-11-17 23:04:37 874

原创 kafka初识

吞吐量 单位时间内处理的数据量。 讲求的单位时间内处理的数据量要大。 跟他对比的是实时性,它要求的是响应时间要快。 请介绍一下zookeeper(Zookeeper协同的是什么) 概念说明 Zk是分布式环境下的第三方协同服务,帮助分布式系统,比如存储、计算、调度等均需要协同服务。 特点特征 简单、易使用、高效、稳定 应用场景 核心是要解决一致性问题 分布式环境下的命名一致性问题 分布式服务环境下的高可用性问题 HA问题 Hig

2021-11-16 22:34:08 539

原创 SparkStreaming

一、SparkStreaming概述1. 数据处理类型分类- 静态数据 - 数据源是不变的、有限的、显式离散的 - 多适用于批量计算、离线计算- 流数据 - 数据是变动的、无限的、连续的 - 多适用于实时计算,能在秒级、秒内处理完成 - 实时数据分类 - 小时级 - 分钟级 - 秒级- sparkstreaming是什么 - 一句话总结:微批处理的流式(数据)实时计算框架 - 原理:是把输入数据以某一时间间隔批量的处理,当批处理...

2021-11-15 22:41:07 836

原创 SparkSql

一、SparkSql是什么1. SparkSql是Spark处理数据的一个模块2. 专门用来处理结构化数据的模块,像json,parquet,csv,普通表格数据等均可3. 与基础RDD的API不同,Spark SQL中提供的接口将提供给更多关于结构化数据和计算的信息,并针对这些信息,进行额外的处理优化二、SparkSql操作方式说明1. SparkSql shell - 类似于hive shell2. DataFrames API3. DataSets API - 集成了R...

2021-11-15 20:02:49 750

原创 spark 算子

课堂回顾:maven构建spark开发环境与测试 引入winutils 配置spark-core依赖 Scala实现spark Wordcount 代码编写 Spark wordcount 打包部署 上传运行 Spark常用算子 什么是算子 算子的重要作用 算子分类 转换算子 Value型转换算子:其处理的数据项是value型 Key-value型转换算子:其处理的数据是key-value型 行动算子 foreach算子:无输出

2021-11-12 22:09:06 547

原创 spark

、架构设计1. 架构设计图 ![](F:\大数据笔记\图片\spark架构设计.jpg)2. 相关术语名称解释- RDD(Resilient Distributed DataSet)- partiton(分区)- 算子- transformation类算子- Action算子- 窄依赖- 宽依赖- Application- Driver- Cluster Manager- WorkerNode- Exector- Task- Job(作业)- Stage(阶段..

2021-11-11 22:56:46 605

原创 scala总结

一、集合collection1. 概念说明- 该集合与java中的集合类似,只是scala重新实现了自身的集合抽象- 分为可变集合和不可变集合- 常用集合列表 | **序号** | **集合类** | **说明** | | -------- | -------------------- | ---------------------------------------...

2021-11-10 23:57:35 188

原创 scala基础篇

标识符 有新增关键字,如yield成为scala新关键字,则在scala调用时,则应由Thread.yield()改成Thread.`yield`来使用引用引入单个类:import java.util.Date;引入包下所有类:import java.util._;引入包下若干类(选择器)importjava.util.{Date,HashSet,HashMap}引入类后重命名:import java.util.{Date => OldDate}隐藏包下的部分成...

2021-11-09 23:03:05 101

原创 项目的注意事项

一、做项目的基本流程1. 梳理数据流程2. 解决关键性问题3. 串联整个流程即标准化及正式上线二、解决关键性问题1. 对比差一点- 数据的文件组织形式不同- 数据的数据格式不同2. 相同点- 数据流程一样- 数据目标也是一样三、曝光- exposure四、广告领域专业术语1. PV:page visit,曝光一次即为一个pv2. uv:uniq visit,或者叫user visit- 即用户去重后的统计...

2021-11-08 22:47:35 78

原创 微博数据挖掘脚本流程

一、加载数据到源表```shell#! /bin/bashtxt_file_path_local=../data/text_data/weiboplus.txttxt_dir_path_hdfs=/tmp/ws/data/db_name=wangshuaioutput_table=weiboplus_originfile_path=`echo $txt_file_path_local | awk -F '/' '{print $NF}'`hdfs dfs -put -f $txt_fi

2021-11-08 22:45:45 933

原创 2021-11-07大数据脚本化

一、将hive表推送到mysql中1. 实现方法分析- 自行实现,而不用sqoop等第三方数据传输同步插件- 备注:sqoop是实现hive与其他各种关系型数据(rdb)的最受欢迎的第三方组件2. 自行实现步骤- 将hive表数据生成到文件weibo_hot_result.txt(原名000000_0)中- 拥有一个mysql库,以及相应的读写权限- 在mysql中创建词频表weibo_hot_words- 执行mysql命令将weibo_hot_restlt.txt导入到weibo

2021-11-07 22:52:38 81

原创 黑名单和白名单

Ansj分词器有几种内置的分词器,及其作用? 5种 BaseAnalysis DicAnalysis IndexAnalysis NlpAnalysis ToAnalysis 建表的注意事项 1、内外表分类 2、字段与类型 3、分区与否 4、行与字段的分隔符 5、存储格式 搜索引擎的索引建立的格式 倒排索引 将查询目标和查询的数据源进行映射关系处理。 关于中...

2021-11-04 23:12:41 341

原创 开发细节与风险控制

一、开发细节与风险控制开发细节当中即伴随着各种各样的风险,并要及时反馈和处理风险,如工作量评估、技术难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分 开发细节 共9个开发模块 1.1确定源数据文件集合 步骤拆分 来源渠道 渠道选择 确定数据集 确定数据文件格式 确定数据结构及Demo数据查看 洞查数据本身 总大小

2021-11-03 22:14:06 83

原创 项目概述(基于海量微博数据的仓库构建与舆情热点挖掘项目_v3.0)

1、需求概述用户需求->系统需求2、需求分析系统需求->官方要求系统需求说明书企业需要的系统原型3、技术方案和开发计划技术方案的IO:系统原型->技术方案说明书开发计划:输入较多较全面,输出是排期表4、微博的删除从用户端看是真的被删除了但是从数据库角度看,都是逻辑删除CSV格式数据,以逗号分隔more 文件名 空格翻页 回车读行wc -l 文件名 看有多少行ls | wc -l 看有多少个文件du -sh * | sor...

2021-11-02 22:34:08 255

原创 采集微博数据ETL项目的处理以及相关技术点

中小型数据仓库项目的标准开发流程以数据流来驱动项目开发以已下载微博数据ETL项目为例基于定的微博数据目录,拿到该目录下所有的输入数据的文件路径。(技术问题done) 基于文件路径,读取文本文件的数据。 解析读取出来的文件数据,成为结构化数据-微博博文对象抽象类-ContentPojo,最终获取对应的对象集合。(技术问题done) 解析读取出来的文件数据,成为结构化数据-用户对象抽象类-UserPojo, 最终获取对应的对象集合。(技术问题done) 将两个抽象的对象集合,进行文本化数据落

2021-11-01 21:58:10 128

原创 2021-10-31 已采集微博数据ETL项目

常见的数据格式Txt,文本行Html,网页,超文本标记语言Xml:是html的超集,就是一种自定义标记标签型格式。pom.xmlJsonKey:value也可以key:value的数组中小型数据仓库项目的标准开发流程以数据流来驱动项目开发以已下载微博数据ETL项目为例1、基于定的微博数据目录,拿到该目录下所有的输入数据的文件路径。2、基于文件路径,读取文本文件的数据。3、解析读取出来的文件数据,成为结构化数据-微博博文对象抽象类-ContentPojo,最

2021-10-31 21:15:11 88

原创 Linux

一.操作系统概述1.计算机基础 计算机系统由”硬件”和”软件”两大部分组成。计算机的软件通常又可以分为两大类:系统软件和应用软件。2.操作系统简介计算机系统由硬件和软件两部分组成。操作系统(OS,Operating System)是配置在计算机硬件上的第一层软件,是对硬件系统的首次扩充。它在计算机系统中占据了特别重要的地位;而其它的诸如汇编程序、编译程序、数据库管理系统等系统软件,以及大量的应用软件,都将依赖于操作系统的支持,取得它的服务。操作系统已成为现代计算机系统(大、中、小及微型机)..

2021-10-14 14:20:16 325

原创 SpringBoot入门知识点

1、使用idea的插件快捷创建springboot项目(根据需要选择不同的依赖) spring.io(1、先从官网下载springboot项目 2、导入到idea中 3、根据pom.xml的配置下载依赖) 2、springboot内置了tomcat,springboot可以独立的启动不需要服务,当然内置了tomcat 3、springboot核心配置文件 properties:就是一个普通的资源文...

2021-09-28 18:41:22 152

原创 Spring

一、概述Spring是一个轻量级开源的框架,更好的贯彻了“高内聚低耦合”的思想,很好的与其他框架其他模块进行无缝整合,spring有两大核心板块 IOC(控制反转)、AOP(面向切面编程)二、构建创建java项目导入相关依赖 core、context、spel、beans 创建applicationContext.xml配置文件,注意将文件的约束头信息拷贝 创建service dao model 相关的包及接口 创建测试类 通过ClassPathXmlApplicationConte...

2021-09-01 20:49:25 61

原创 连接池、事务、一对多和多对多配置

一、连接池1.1 连接池是面向数据库连接的连接池是为了优化数据库的连接资源1.2 mybatis中的连接池在Mybatis中我们将它的数据源DataSource分为①、UNPOOLED 不使用连接池的数据源会为每一个数据库操作创建一个新的连接,并关闭它。该方式使用于只有小规模数量并发用户的简单应用程序上。②、POOLED 使用连接池的数据源会创建一个数据库连接池,连接池中的一个连接会被用做数据库操作。一旦数据库操作完成,Mybatis会将此连接返回给连接池...

2021-08-31 20:43:04 143

转载 mybatis 标签

1. 常用标签介绍 1.1 mybatis配置文件的标签 Properties resource: 直接可以获取类路径 url: 指定文件的绝对路径。 方式一: <properties> <property name="jdbc.driver" value="com.mysql.jdbc.Driver"/> ...

2021-08-30 22:46:53 556

原创 Mybatis

1. 入门案例 第一步: 创建一个java项目 ——> 创建lib文件夹 ——> 指定lib为我们使用jar包的路径(buildpath) 第二步: 导入相应的jar包 1、log4j(日志) 2、mysql(链接数据库) 3、mybatis(Mybatis框架的依赖) 第三步: 导入配置文件 log4...

2021-08-29 21:05:29 51

原创 反射概述及应用

反射1、概述反向探知,在程序运行中动态的获取或操作类中的属性就是反射。1.1、初探反射: 获取Class对象的四种方式 Class clazz1 = User.class; 2 Class<?> clazz2 = Class.forName("com.tledu.pojo.User"); 3 Class<? extends User> clazz3 = new User().getClass(); 4 Class<?> clazz4 =

2021-08-26 20:46:04 469

原创 Filter

一、Filter1.1概述生活中的过滤器:净水器,空气净化器,土匪、web中的过滤器:当访问服务器的资源时,过滤器可以将请求拦截下来,完成一些特殊的功能。过滤器的作用:一般用于完成通用的操作。如:登录验证、统一编码处理、敏感字符过滤...执行过程1.2环境搭建1 创建filter.实现filter覆写方法public class InitFilter implements Filter { @Override public void init(Filte...

2021-08-23 11:58:58 90

原创 会话、验证码

1. 初始化时机 1.1 第一次请求 默认servlet是在第一次请求的时候,调用无参构造创建对象,并调用init方法,并且只执行一次。 Load-on-startup默认 是 -1 <load-on-startup>-1</load-on-startup> 1.2 启动tomcat的时候 初始化时机-1,第一次请求-1。 <load-on-startup>1</load...

2021-08-22 22:13:54 88

原创 EL表达式、JSTL表达式

1.6 请求流程http://localhost:8080/Servlet_01/hello当客户端浏览器发送请求 的时候通过 localhost可以找到当前电脑:8080 就找到 tomcat的webappsServlet_01 就是我们要执行的项目/hello 就是我们要请求的servlet_01项目中的功能此时 /hello就会去和Servlet_01项目中 的web.xml中定义的路由进行匹配(或者是注解定义的路由)找到这个对应的类之后,就会去执行该类中的init方法,ser

2021-08-19 22:04:02 60

原创 Servlet、JSP

一、问题汇总1.1缓存还是不行 就删除tomcat重新安装1.2 自动部署·如果没有开着自动构建 导致 编写完之后不会生成class文件,导致ClassNotFunt 找不到对应的类如果 开启自动构建 还是提示未找到1 程序是否有错看是否报红2 是否生成class如果没有生成,可能是因为程序有错,如果程序没有错误,还是不生成class可能因为之前报错了,及时现在更改了,但是依然出现了缓存问题可以刷新项目,或者关闭eclipse重...

2021-08-18 23:01:18 68

原创 Tomcat Servlet

1.Web 1.1 软件架构 1. C/S:客户端/服务器端 基于客户端,需要有指定的APP,比如手机上的淘宝和电脑上的淘宝/QQ等,得先下载并安装就可以使用,不依赖与其他软件 2. B/S:浏览器/服务器端 基于浏览器,比如网页版淘宝,网页版百度,只要有浏览器就可以通过地址进行访问 1.2 资源分类 1. 静态资源:所有用户访问后,得到的结果都是一样的,称为静态资源.静态资源可以直接被浏览器解析,如: html...

2021-08-17 23:12:56 47

原创 JQuery

1 JQuery介绍 1.1 JavaScript与jQuery比较 Jscript: 1.入口函数只有一个,window.onload 2、浏览器兼容性:非常令人头疼,比如textContent虽然作为标准方法但是只支持IE8+以上的浏览器 3、DOM错综复杂,实现简单的效果很麻烦 4、代码容错性差,出错后导致后面的代码不执行 Jquery:...

2021-08-15 22:14:38 54

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除