自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 大数据--毕业生

前序本人目前在郑州实习工作,公司除了薪资有点低,工作压力丝毫没有,想着去北京闯闯。于是写个笔记总结一下。为找工作埋伏笔。今天是2022年2/17,今年的目标是在北京找个税后13K的。面试了3家,本人需要加强的地方是,第一 :数据结构,操作系统,计算机网络,sql,算法。第二 :面试的经验。(总是感觉面试的时候说不出来自己的强项)第三: 业务水平每天还要精进。常见基础问题//之前已经背过许多题了,这里都是默写,根据我的理解,所以有时候可能不对,望指正。hadoophdfs的写流程:首先由三部分组

2022-02-17 11:58:07 2481 2

原创 第三次学flink

Flink为何而出现人们想要高吞吐,低延迟处理数据,以前的storm只能低延迟,做不到高吞吐,spark Streaming可以高吞吐,但是更多的场景是要根据事件数据切割,或者说要实现比较复杂。主要参考尚硅谷和官网...

2021-12-14 09:28:43 1890

原创 常用技巧总结

JSONobjectreadTree ObjectMapperJSON.parseObject定时运行某个方法一般用于数据库更新,然后让后端数据重新读取Timer timer =new Timer();timer.shedule(new TImerTask(){ run(需要重复运行的方法)},(delay)5000,(period)5000)......

2021-08-30 16:48:13 467

原创 hadoop权威指南第四版

迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器)。因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,1 在线访问的组件是hbase。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。RDBMS B树是传统的数据库 ,适合更新一小部分数据。

2023-10-30 01:58:31 1018

原创 思考表达的几种方式

解决方案时要这么想。

2023-07-17 20:06:51 126

原创 <增长黑客>笔记

免费增值模式 用免费服务吸引用户,再通过增值服务将部分免费用户转化为收费用户。uproar 没钱烧广告,制作趣味游戏附加到网站上,用户完成游戏即可跳转到uproar上。同时让其他网站的owner 很轻易的就能添加到他的网址上(是不是类似于刷抖音 时看到广告,会直接跳过,但是如果是趣味游戏的话,我有时候也会玩一下。Logmein 花了一大堆钱,换各种途径砸广告,转化率比较低,采用免费增值模式,当时这种模式很难让人相信免费,在旁边新增了个付费版本,同时优化下载,注册流程 (解决用户的痛点)

2023-06-12 21:39:30 645

原创 中级数据开发工程师养成计

用心记录

2023-03-08 13:58:56 471

原创 发现师姐代码错误!!!

日常积累小错误 避免日后犯大错

2022-12-13 17:49:31 125

原创 SQL遇到的天坑

sql遇到的天坑

2022-11-28 15:11:15 171

原创 数据湖和数据仓库的区别?

数据湖的简单了解

2022-11-03 22:01:30 761

原创 四种事实表

四种事实表

2022-09-08 13:01:57 1849

原创 从学校到工作的一些收获

从大学到工作的一些收获

2022-09-05 13:30:38 601

原创 关于双表join时on里边字段为null或者空的情况

无封面

2022-07-29 15:52:33 3160

原创 EXCEL学习

随便过一遍

2022-07-21 17:25:12 237

原创 数据飘移问题

数据漂移问题

2022-07-18 18:40:53 719

原创 JSON的复杂需求

JSON复杂需求小工具

2022-07-14 10:40:46 178

原创 presto配置mysql,ES,clickhose,redis踩坑

https://prestodb.io/docs/current/connector/kafka-tutorial.html//根据参考文档配置,简单的不说了连接redis面临的问题是 .json文件映射问题首先只能映射String和hash第二hash的存放规则 你要 hset 数据库名:表名:test1 age 1 这样存才能映射(就是说 json映射文件中 ,key的值是 数据库名:表名:test1 value的值是 age 1)hash说实话就是<key,map>类型,

2022-05-06 12:02:09 1049

原创 hive优化

命令explain (sql语句)查看详细的MRexplain extended (sql语句) 查看参数的MR动态分区就是说给分区表导入数据的时候,想给数据动态分区插入进去1首先开去动态分区功能set hive.exec.dynamic.partition=true;2 设置为非严格模式(动态分区的模式,默认strict,表示必须指定至少一个分区为静态分区,nonstrict表示允许所有的分区字段都可以使用动态分区)set hive.exec.dynamic.partition.mode=

2022-04-17 16:54:51 1674

原创 python xpath的简单应用

import requestsfrom lxml import etreeimport osimport re# 获取目标urlbase = response = requests.get()response.encoding = 'utf-8'html = etree.HTML(response.text)# 获取文字x = html.xpath('/html/body/div/div[4]/div[1]/div[2]/ul/li')novel_path = '会计学词汇中英文对照

2022-04-15 16:06:25 495

原创 nvm use 版本 乱码错误

nvm use 乱码错误1 未使用管理员权限在 C:\Windows\System32 ,右键管理员启动cmd.exe2 下载的目录有中文或者空格例如C :profile file/nvm此时需要重新下载

2022-03-04 10:01:20 463

原创 微服务日常学习

服务的拆分及远程调用调用其他服务用restTemplate其实用过好多次了,只不过原来是微服务的内容啊Eureka注册中心管理服务,30s心跳配置 1 引入依赖 2添加注解 3 添加yml配置信息 这就配好了服务,4还要在每个服务中yml添加一下Eureka的地址就可以了。那么如何调用呢1修改url地址写服务名称实现负载均衡给RestTemplate加注解@LoadBalanced更改负载均衡的规则在service中。@Beanpublic IRule randomRule().

2021-12-06 16:16:48 340

原创 JVM学习

进程和线程进程是操作系统分配资源的最小单位线程是操作系统调度的最小单位JVM JRE JDKjava虚拟机识别class文件,解析它的指令,最终调用操作系统上的函数,完成我们想要的操作。JRE是java运行环境,JVM标准加上一大推基础类库。JDK包含JRE,还提供了一些非常好用的工具。JVM可以运行多种语言JVM只识别字节码,只要语言服了字节码的规范,像scalaJVM有哪些内存区域虚拟机栈:在JVM运行过程中存储当前线程运行方法所需的数据,指令,返回地址。本地方法栈: 他服务的对

2021-12-06 11:18:13 490

原创 Leecode

2021 /11/8字符串比较String a=“ABCDEF”String b=‘BC’ 得到b在a的第几位暴力public class test { public static void main(String[] args) { String a = "dweaaaaaaa"; String b = "ea"; int result = (int) search(a, b); System.out.println(res

2021-12-06 09:30:32 135

原创 机器学习入门

终极目标新闻类,根据已有的用户数据推测出未有用户的性别

2021-11-12 17:10:22 554

原创 第二次学spring

SPRINGlazy-init =true 懒加载init-method=“test” 只要一实例化就加载这个方法单例作用域<bean id='test' class='com.test' scope=singleton>原型作用域 每次请求都会创建一个新的bean对象<bean id='test' class='com.test' scope="prototype">...

2021-11-10 18:07:20 651

转载 clickhouse 实时同步mysql binlog

为了能够监听 binlog 事件,之前我们需要用到类似 canal 这样的第三方中间件,这无疑增加了系统的复杂度。 ClickHouse 20.8将新增 MaterializeMySQL引擎 ,可通过binlog日志实时物化mysql数据,提升数仓的查询性能和数据同步的时效性;原有...

2021-10-29 09:34:14 1371

原创 Shiro 和jwt

ShiroSubject currentUser=SecurityUtils.getSubject()Session session=currentUser.getSession()currentUser.isAuthenticated()currentUser.getPrincipal()currentUser.hasRole("schwartz")currentUser.ispermitted("lightsaber:wield")currentUser.logout();注销三大组件

2021-10-25 09:21:28 251

原创 vue--

仅用于自己学习只负责视图层:给用户看,更新后台的数据

2021-10-20 12:14:33 83

原创 学习网站啊

黑客学习网址10.HackingLoops:https://www.hackingloops.com/9.XCTF_OJ 练习平台:https://adworld.xctf.org.cn/8.网络信息安全攻防学习平台:http://hackinglab.cn/index.php7.SecurityTube:http://www.securitytube.net/6.Cybrary:https://www.cybrary.it/5.Hack This Site:https://www.hackth

2021-10-03 22:34:56 536

原创 springCloud

微服务spring cloud NetFlix 一站式解决方案api网关 zuul组件FeignEureka服务注册发现熔断机制:HystrixApache Dubbo Zookeeper 半自动API:没有DUbboZookeeper借助hystrixSpring Cloud Alibaba 最新一站式

2021-09-26 21:57:41 95

原创 前端学习快速

html 管架构, css是修饰,js是动态交互CSS <style>标签写修饰 <link>写连接的css选择器基本选择器类选择器<style>.demo{}</style><h1 class=demo>id选择器<style>#demo{}</style><h1 id=demo>javaScriptjQueryjQuery库,里边存在大量javaScript函数原

2021-09-24 18:02:04 87

原创 数据仓库4.0

仅用于自己学习数据流程设计搭建版本选择Apache :运维麻烦,组件间兼容性需要自己调研CDH: 国内使用最多的版本,6.32之前免费,从2021年开始收费。 1个节点1万美元云服务选择阿里云的EMR(不用搭建平台和考虑兼容性问题),MaxCompute, DataWorks亚马逊云的EMR腾讯云EMR华为云EMR(市场份额少)物理机和云主机选择集群规模计算例子 用户100万,每个用户平均100条数据,每条日志1k左右,每天100w1001000/1024/1024约等于10

2021-09-13 09:24:41 1274

原创 list中,foreach不能数字累加

List<YuQing> list = null; List<YuQing> yuQings = yuQingMapper.selectAll(); int i = 1; 只能用这种,后面他用foreach(),里面写的是lambda表达式,而lambda表达式里边的数据必须写死,所以外边参数传不进去,只能用for循环了 for(YuQing yuQing :yuQings){ yuQing...

2021-09-03 18:05:43 2089

原创 Utils

#KafkaUtilimport org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;import org.apache.flink.streaming.

2021-08-20 09:57:02 387

原创 Logback 配置 日志数据落到磁盘中

第一步 在resource文件下创建logback.xml<?xml version="1.0" encoding="UTF-8"?><configuration> <property name="LOG_HOME" value="/opt/module/rt_gmall/gmall0820" /> <!--记录日志的方式 打印到控制台--> <appender name="console" class="ch.qos.lo

2021-08-18 10:47:48 514

原创 Python

区别try cache 改为 try except字典 {} 元组() 列表[]读取文件open(“a.txt”,r) .close import os os.rename是对文件整体的操作爬虫

2021-08-11 17:51:40 96

原创 kylin

定义分布式分析引擎,他能在亚秒内查询巨大的hive表。特点标准sql接口 Kylin是以标准的SQL作为对外服务的接口2)支持超大数据集 Kylin架构

2021-08-10 21:18:05 81

原创 DataX

阿里巴巴开源的异构数据源离线同步工具,源码用python写的基础用法//首先查看格式python bin/datax.py -r hdfsreader -w mysqlwriter //从hdfs读取数据到mysql//python bin/datax.py -r streamreader -w streamsqlwriter //从流到流//把其放进一个 .py的文件夹里边// 然后直接运行就完事了...

2021-08-10 17:05:07 104

原创 String类型的dateTime数据转化为dateTime类型数据

String s="2018-10-05 10:32:16";Date date = Convert.toDate(s);DateTime dateTime = DateUtil.date(date);用hutool工具 引入pom,把String类型的dateTime数据转化为dateTime类型数据

2021-08-08 22:38:12 1017

原创 ClickHouse

参考https://clickhouse.tech/docs/zh/

2021-07-30 09:20:48 135

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除