大数据
文章平均质量分 57
春风不会绿大地
目前本人在找工作,河南的同志可滴滴我,大数据开发方向
展开
-
中级数据开发工程师养成计
用心记录原创 2023-03-08 13:58:56 · 457 阅读 · 0 评论 -
发现师姐代码错误!!!
日常积累小错误 避免日后犯大错原创 2022-12-13 17:49:31 · 120 阅读 · 0 评论 -
SQL遇到的天坑
sql遇到的天坑原创 2022-11-28 15:11:15 · 163 阅读 · 0 评论 -
数据湖和数据仓库的区别?
数据湖的简单了解原创 2022-11-03 22:01:30 · 733 阅读 · 0 评论 -
四种事实表
四种事实表原创 2022-09-08 13:01:57 · 1808 阅读 · 0 评论 -
关于双表join时on里边字段为null或者空的情况
无封面原创 2022-07-29 15:52:33 · 2937 阅读 · 0 评论 -
数据飘移问题
数据漂移问题原创 2022-07-18 18:40:53 · 681 阅读 · 0 评论 -
presto配置mysql,ES,clickhose,redis踩坑
https://prestodb.io/docs/current/connector/kafka-tutorial.html//根据参考文档配置,简单的不说了连接redis面临的问题是 .json文件映射问题首先只能映射String和hash第二hash的存放规则 你要 hset 数据库名:表名:test1 age 1 这样存才能映射(就是说 json映射文件中 ,key的值是 数据库名:表名:test1 value的值是 age 1)hash说实话就是<key,map>类型,原创 2022-05-06 12:02:09 · 955 阅读 · 0 评论 -
hive优化
命令explain (sql语句)查看详细的MRexplain extended (sql语句) 查看参数的MR动态分区就是说给分区表导入数据的时候,想给数据动态分区插入进去1首先开去动态分区功能set hive.exec.dynamic.partition=true;2 设置为非严格模式(动态分区的模式,默认strict,表示必须指定至少一个分区为静态分区,nonstrict表示允许所有的分区字段都可以使用动态分区)set hive.exec.dynamic.partition.mode=原创 2022-04-17 16:54:51 · 1662 阅读 · 0 评论 -
python xpath的简单应用
import requestsfrom lxml import etreeimport osimport re# 获取目标urlbase = response = requests.get()response.encoding = 'utf-8'html = etree.HTML(response.text)# 获取文字x = html.xpath('/html/body/div/div[4]/div[1]/div[2]/ul/li')novel_path = '会计学词汇中英文对照原创 2022-04-15 16:06:25 · 486 阅读 · 0 评论 -
第三次学flink
Flink为何而出现人们想要高吞吐,低延迟处理数据,以前的storm只能低延迟,做不到高吞吐,spark Streaming可以高吞吐,但是更多的场景是要根据事件数据切割,或者说要实现比较复杂。主要参考尚硅谷和官网...原创 2021-12-14 09:28:43 · 1868 阅读 · 0 评论 -
大数据--毕业生
前序本人目前在郑州实习工作,公司除了薪资有点低,工作压力丝毫没有,想着去北京闯闯。于是写个笔记总结一下。为找工作埋伏笔。今天是2022年2/17,今年的目标是在北京找个税后13K的。面试了3家,本人需要加强的地方是,第一 :数据结构,操作系统,计算机网络,sql,算法。第二 :面试的经验。(总是感觉面试的时候说不出来自己的强项)第三: 业务水平每天还要精进。常见基础问题//之前已经背过许多题了,这里都是默写,根据我的理解,所以有时候可能不对,望指正。hadoophdfs的写流程:首先由三部分组原创 2022-02-17 11:58:07 · 2396 阅读 · 2 评论 -
JVM学习
进程和线程进程是操作系统分配资源的最小单位线程是操作系统调度的最小单位JVM JRE JDKjava虚拟机识别class文件,解析它的指令,最终调用操作系统上的函数,完成我们想要的操作。JRE是java运行环境,JVM标准加上一大推基础类库。JDK包含JRE,还提供了一些非常好用的工具。JVM可以运行多种语言JVM只识别字节码,只要语言服了字节码的规范,像scalaJVM有哪些内存区域虚拟机栈:在JVM运行过程中存储当前线程运行方法所需的数据,指令,返回地址。本地方法栈: 他服务的对原创 2021-12-06 11:18:13 · 484 阅读 · 0 评论 -
Leecode
2021 /11/8字符串比较String a=“ABCDEF”String b=‘BC’ 得到b在a的第几位暴力public class test { public static void main(String[] args) { String a = "dweaaaaaaa"; String b = "ea"; int result = (int) search(a, b); System.out.println(res原创 2021-12-06 09:30:32 · 130 阅读 · 0 评论 -
机器学习入门
终极目标新闻类,根据已有的用户数据推测出未有用户的性别原创 2021-11-12 17:10:22 · 542 阅读 · 0 评论 -
Shiro 和jwt
ShiroSubject currentUser=SecurityUtils.getSubject()Session session=currentUser.getSession()currentUser.isAuthenticated()currentUser.getPrincipal()currentUser.hasRole("schwartz")currentUser.ispermitted("lightsaber:wield")currentUser.logout();注销三大组件原创 2021-10-25 09:21:28 · 234 阅读 · 0 评论 -
学习网站啊
黑客学习网址10.HackingLoops:https://www.hackingloops.com/9.XCTF_OJ 练习平台:https://adworld.xctf.org.cn/8.网络信息安全攻防学习平台:http://hackinglab.cn/index.php7.SecurityTube:http://www.securitytube.net/6.Cybrary:https://www.cybrary.it/5.Hack This Site:https://www.hackth原创 2021-10-03 22:34:56 · 477 阅读 · 0 评论 -
springCloud
微服务spring cloud NetFlix 一站式解决方案api网关 zuul组件FeignEureka服务注册发现熔断机制:HystrixApache Dubbo Zookeeper 半自动API:没有DUbboZookeeper借助hystrixSpring Cloud Alibaba 最新一站式原创 2021-09-26 21:57:41 · 91 阅读 · 0 评论 -
前端学习快速
html 管架构, css是修饰,js是动态交互CSS <style>标签写修饰 <link>写连接的css选择器基本选择器类选择器<style>.demo{}</style><h1 class=demo>id选择器<style>#demo{}</style><h1 id=demo>javaScriptjQueryjQuery库,里边存在大量javaScript函数原原创 2021-09-24 18:02:04 · 75 阅读 · 0 评论 -
数据仓库4.0
仅用于自己学习数据流程设计搭建版本选择Apache :运维麻烦,组件间兼容性需要自己调研CDH: 国内使用最多的版本,6.32之前免费,从2021年开始收费。 1个节点1万美元云服务选择阿里云的EMR(不用搭建平台和考虑兼容性问题),MaxCompute, DataWorks亚马逊云的EMR腾讯云EMR华为云EMR(市场份额少)物理机和云主机选择集群规模计算例子 用户100万,每个用户平均100条数据,每条日志1k左右,每天100w1001000/1024/1024约等于10原创 2021-09-13 09:24:41 · 1248 阅读 · 0 评论 -
常用技巧总结
JSONobjectreadTree ObjectMapperJSON.parseObject定时运行某个方法一般用于数据库更新,然后让后端数据重新读取Timer timer =new Timer();timer.shedule(new TImerTask(){ run(需要重复运行的方法)},(delay)5000,(period)5000)......原创 2021-08-30 16:48:13 · 425 阅读 · 0 评论 -
Utils
#KafkaUtilimport org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;import org.apache.flink.streaming.原创 2021-08-20 09:57:02 · 321 阅读 · 0 评论 -
Logback 配置 日志数据落到磁盘中
第一步 在resource文件下创建logback.xml<?xml version="1.0" encoding="UTF-8"?><configuration> <property name="LOG_HOME" value="/opt/module/rt_gmall/gmall0820" /> <!--记录日志的方式 打印到控制台--> <appender name="console" class="ch.qos.lo原创 2021-08-18 10:47:48 · 478 阅读 · 0 评论 -
Python
区别try cache 改为 try except字典 {} 元组() 列表[]读取文件open(“a.txt”,r) .close import os os.rename是对文件整体的操作爬虫原创 2021-08-11 17:51:40 · 88 阅读 · 0 评论 -
kylin
定义分布式分析引擎,他能在亚秒内查询巨大的hive表。特点标准sql接口 Kylin是以标准的SQL作为对外服务的接口2)支持超大数据集 Kylin架构原创 2021-08-10 21:18:05 · 74 阅读 · 0 评论 -
DataX
阿里巴巴开源的异构数据源离线同步工具,源码用python写的基础用法//首先查看格式python bin/datax.py -r hdfsreader -w mysqlwriter //从hdfs读取数据到mysql//python bin/datax.py -r streamreader -w streamsqlwriter //从流到流//把其放进一个 .py的文件夹里边// 然后直接运行就完事了...原创 2021-08-10 17:05:07 · 99 阅读 · 0 评论 -
String类型的dateTime数据转化为dateTime类型数据
String s="2018-10-05 10:32:16";Date date = Convert.toDate(s);DateTime dateTime = DateUtil.date(date);用hutool工具 引入pom,把String类型的dateTime数据转化为dateTime类型数据原创 2021-08-08 22:38:12 · 1012 阅读 · 0 评论 -
ClickHouse
参考https://clickhouse.tech/docs/zh/原创 2021-07-30 09:20:48 · 116 阅读 · 0 评论 -
生单词集锦
2021/7/29granularity 粒度stripe 条纹optimize 优化原创 2021-07-30 08:36:31 · 93 阅读 · 0 评论 -
HanLp
分词类型CRF分词,随机目前机器学习方面效果最好的索引分词,建立索引方便与搜素,大数据N-最短路径分词 :把字符串切割成单个字,构成一个dag,然后算出最短路径,查询效果好,速度慢极速词典分词: 速度极快,制定合适的切分规则,准确度一般NLP分词:能够完成词性标注的一种常用的分词方法标准分词: 速度快,适用于文本多的情况自定义词典分词:深度学习分词:...原创 2021-07-23 11:46:55 · 140 阅读 · 0 评论 -
ngrok快速使用
首先部署自己本地一个服务注册并登陆https://www.ngrok.cc/user.html![请添加图片描述](https://img-blog.csdnimg.cn/img_convert/de359839a9367d3aee25e2dba90ea68c.png记住隧道ID,并下载客户端,一直回车,直到出现online就成功了...原创 2021-07-21 03:21:51 · 188 阅读 · 0 评论 -
用户画像呀
理解用户信息标签化。对特征进行分析,或推测其特征,一般用于电商,新闻(个性化推荐)数据存储1 metastore 元数据存储 :一般存储都有哪些标签,和标签的级别或者权重(存储与mysql)2 tags 标签数据存储 :用户id 和标签行为 (存储与Hbase和ES)...原创 2021-07-19 18:06:53 · 114 阅读 · 0 评论 -
IT小常识
Apache基金会美国1999年7月,它的创建者是一个自称为“Apache组织”的群体。这个“Apache组织”在1999年以前就已经存在很长时间了,这个组织的开发爱好者们聚集在一起,在美国伊利诺伊斯大学国家超级计算机应用程序中心(National Center for Supercomputing Applications,简称为NCSA)开发的NCSA HTTPd服务器的基础上开发与维护了一个叫Apache的HTTP服务器。后来,因为这个服务器的功能又如此强大,而代码可以自由下载修改与发布,当时这个服原创 2021-07-05 15:10:39 · 179 阅读 · 0 评论 -
Phoenix简单学习
简介基于HBse的开源引擎,可以使用标准的JDBC API来代替HBase客户端API来创建表,插入数据,查询你的HBase数据,Phoenix的性能:phoenix是编译sql查询为原生的HBase的scan语句。检测scan语句最佳的开始和结束的key。精心编排你的scan语句让他们并行执行。推送你的where子句的谓词到服务端过滤器处理。执行聚合查询通过服务端的钩子。实现了二级索引来提升非主键字段查询的性能。命令练习//创建表create table if not exists原创 2021-07-01 16:39:06 · 1085 阅读 · 0 评论 -
ik分词器连接mysql热 连接不上mysql问题
在配置好ik后,打包放到plugin目录下,运行es,日志如下很明显错误链接不上mysql,我那个在idea上把loadMySQLExtDict运行了一下,结果居然能访问到mysql,现在这个情况应该就是,在idea上能跑,但把他放到es的plugin/ik下,它跑不了,明明参数都获取到了,端口防火墙也开了,为啥es访问不到mysql呢?...原创 2021-06-29 10:38:08 · 595 阅读 · 8 评论 -
swagger
概念调节前后端数据,实时更新最新APi,降低集成的风险好处:1可以同步文档和应用api应用 配置完@EnableSwagger2后,可以看到上图,Api是swagger信息,Models是实体类信息,hello和basic-error-controller是接口信息配置继承docketAPiModel(“”)//给实体类加注释ApiModelProperty() //给属性加注释ApiOperation()//给接口加注释...原创 2021-06-24 11:30:27 · 158 阅读 · 0 评论 -
Docker
Docker概述我理解是一个容器,用来装环境。通过隔离机制,将服务器用到极致。和传统的虚拟机不同的是,每个人都由自己的lib.应用更快速的交付和部署,更快的升级和扩容。Docker中的名词概念镜像(image)docker镜像好比一个模板,可以通过这个模板创建容器服务,tomcat镜像==》run==>tomcat01(提供服务器),通过这个镜像可以创建多个容器(最终服务运行或者项目运行就是在容器中的)容器(container)独立运行一个或者一个组应用,通过镜像创建,启动,停止,删除,原创 2021-06-23 08:47:11 · 79 阅读 · 0 评论 -
Python简单学习
执行python index.py原创 2021-05-13 21:51:10 · 73 阅读 · 0 评论 -
机器学习
科普数据加载层:ETL(Extract-Transform-Load)一 数据运营层 :ODS(Operational Data Store)二 数据仓库层 DW数据明细层:DWD(Data Warehouse Detail)数据中间层:DWM(Data WareHouse Middle)数据服务层:DWS(Data WareHouse Servce)三、数据应用层:APP(Application)四、维表层:(Dimension)推荐阅读:https://www.cnblogs.com原创 2021-05-13 20:08:10 · 88 阅读 · 0 评论 -
Sqoop
介绍Sqoop在Hadoop与关系型数据库或者大型机之间传输数据的工具,您可以使用Sqoop从关系数据库管理系统(RDBMS)或大型机中数据导入从Hadoop分布式文件系统(HDFS),在Hadoop Mapreduce中转换数据,然后将数据导入回RDBMS.原理将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中,主要是对inputformat和outputformat进行定制从关系数据库管理系统(RDBMS)中到HDFS既导入1在mysql中创建一个表CREAT原创 2021-05-13 19:15:26 · 88 阅读 · 0 评论