- 博客(48)
- 资源 (15)
- 收藏
- 关注
原创 面试经验
春招一份好的实习是秋招的一块敲门砖,可自己却很晚才意识到这个问题,一直想着暑假再去准备。最后在看着身边大佬都去了腾讯、网易实习,感觉不能再等下去了,在4月中旬开始寻找实习。路程一度异常坎坷,本着不放弃的精神在各个平台(拉钩/boss直聘/实习僧/牛客)投递了无数份简历,面试是一个不断学习的过程,把自己面试的问题记录下来,也许下次你就可以给面试官大佬聊聊你对问题的扩展。offer是一个很玄学的东西,...
2018-05-15 16:15:31 3208
原创 dasddsada
{“train_HorzLR_16196751401397136”: {“metric_name”: “HorzLR_16196751401397136”,“metric_namespace”: “train”,“metric_meta”: {“metric_type”: “EVALUATION_SUMMARY”},“data”: {“auc”: {“value”: 0.178182},“ks”: {“value”: 0.0}}},“train_HorzLR_16196751
2021-12-27 17:50:57 454
原创 2021-06-01
Apache Atlas引言当下金融行业场景丰富,如风控、智慧决策等不同种类的业务依赖于机器学习、深度学习等AI框架,算法人员在针对不同业务建模过程中,难免会遇到处理相同特征的情况。 如何在大量复杂特征中帮助算法和业务人员更清晰的了解元数据信息、理解特征之间的血缘关系,更快速地理解业务场景,构建算法模型成为了特征平台亟需解决的问题。基础概念Apache Atlas官网给出的定义十分明确”a scalable and extensible set of core foundational govern
2021-06-01 00:26:13 564
原创 docker安装和卸载
docker安装和卸载一、docker安装:1> 配置yum和docker仓库源(加速下载rpm包)mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bakcurl https://mirrors.aliyun.com/repo/Centos-7.repo >> /etc/yum.repos.d/CentOS-Base.repocurl https://mirrors.aliyun.co
2021-04-17 16:02:13 196
原创 Centos安装Code-server及支持java和scala
引言:Code-server自19年发布以来,以其易部署和多平台使用受到大多数开发者喜爱,只要在公共服务器上部署后,用户可以在任何地方记录自己的想法并实现。Code-server的这些优势自然也被java用户所喜爱,本文主要讲解如何在服务器上安装相应的插件以支持用户开发java和scala业务代码。本文主要讲解如何在离线环境完成部署。Code-server的安装用户首先在下载需要的code-server版本(建议不要下载过高的版本,vscode的插件对code-server有一定延迟)解压后我们需
2021-03-21 15:58:25 1470
原创 jupyterlab支持spark和pyspark(跨集群)
引言:目前数据分析人员常用到jupyterlab来进行前期的数据探索,但纯净版只支持简单的python,不能满足数据分析人员的需求,如何为数据分析人员提供大数据集群下的数据访问就成了需要解决的问题。当前jupyter提供了一些官方kernel供用户使用,如最早的sparkmagic()和最近新的开源项目Apache Toree()都可以满足通过spark和pyspark方式对大数据集群数据的访问。对sparkmagic和toree调研分析后发现:sparkmagic:基于Apache livy实现
2021-03-15 00:02:10 1160 1
原创 python读取hive方案分析
python读取hive方案对比引言最近接到一项任务–开发python工具,方便从HDFS读取文件和Hive表数据。当前网上的方案大多是通过第三方python包实现,只需导入指定pypi包即可完成,这种方案虽然在功能上具有可行性,但是当数据量级增大时,读取数据效率低下,无法满足业务场景需要,为此需调研其他方案实现python读取Hive表功能。
2021-03-06 20:42:08 8716
原创 Git学习
Git是目前世界上最先进的分布式版本控制系统CVS及SVN都是集中式的版本控制系统,而Git是分布式版本控制系统所有的版本控制系统,其实只能跟踪文本文件的改动,比如TXT文件,网页,所有的程序代码等等。而图片、视频这些二进制文件,虽然也能由版本控制系统管理,但没法跟踪文件的变化ls -ah //查看隐藏文件1.Git创建仓库 1)创建一个目录 2)git...
2019-07-22 00:35:28 117
原创 Maven学习
Maven是什么?Apache Maven是一个软件项目管理和综合工具。基于项目对象模型(POM)的概念,Maven可以从一个中心资料片管理项目构建,报告和文件。Maven项目的结构和内容在一个XML文件中声明,pom.xml 项目对象模型(POM),这是整个Maven系统的基本单元。所有 POM 文件都需要 project 元素和三个必需字段:groupId,artifactId,ver...
2019-07-21 14:19:58 117
原创 Python运行问题:Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.
最近更新numpy包后当导入numy和networkx包运行python会报错:Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.解决方法:1.更新anaconda本身conda update anaconda2.更新numpy、mkl和networkx包conda update numpyconda upda...
2019-05-16 11:30:32 1597
原创 kafka学习笔记三--kafka生产者
kafka有着自定义的网络协议,使用者只要遵守该协议格式,就可向kafka发送和拉取消息。老版本通过scala实现的生产者客户端已经被标记“废弃”,最新版本的通过java实现的KafkaProducer为我们实现同步/异步/发送消息,批量发送、超时重发等功能提供了便利。我们可以在Kafka clients模块的org.apache.kafka.client.producer包里找到该API的具体实...
2019-02-07 20:26:27 307
原创 kafa学习笔记二--kafka Tool
本章主要学习kafka里一些管理脚本,通过脚本学习我们可以更方便的学习和使用kafka。kafka-server-start脚本 启动kafka server kafka-server-stop脚本 关闭kafka server kafka-topics脚本 负责kafka中Topic相关操作。如:创建Topic,查询Topic详细信息,添加分区并完成新增的副本等等...
2019-02-07 12:25:50 2853
转载 消息队列
本文内容思维导图: “RabbitMQ?”“Kafka?”“RocketMQ?”...在日常学习与开发过程中,我们常常听到消息队列这个关键词。我也在我的多篇文章中提到了这个概念。可能你是熟练使用消息队列的老手,又或者你是不懂消息队列的新手,不论你了不了解消息队列,本文都将带你搞懂消息队列的一些基本理论。如果你是老手,你可能从本文学到你之前不曾注意的一些关于消息队列的重要概念,如果你是新手...
2019-01-03 22:56:20 154
原创 Kafka学习笔记一--Kafka入门
一.说到Kafka之前,我们首先了解消息系统(又称消息队列)是一个存放消息的容器,当我们需要使用消息的时候可以取出消息供自己使用,其主要有两种模式:队列模式(又称点对点模式):多个消费者读取消息队列,每条消息只发送给一个消费者。 发布/订阅模式:多个消费者订阅主题,主题的每条记录会发送给所有的消费者。 二.Apache Kafka是一个分布式的、基于发布/订阅的消息系统,其由Scala...
2018-12-30 12:30:11 437
原创 win10+Zookeeper环境配置
一.首先在https://mirrors.cnnic.cn/apache/zookeeper/下载所需的Zookeeper版本(我下载是3.4.9)安装目录:D:\zookeeper-3.4.9二.在D:\zookeeper-3.4.9\conf中把zoo_sample.cfg修改为zoo.cfg文件里面内容做如下修改# The number of milliseconds of...
2018-12-26 18:16:57 4739
原创 Gradle环境变量配置
一.首先在https://gradle.org/releases/下载所需的版本(本文配置的4.10.3)我的Gradle安装在C:\Program Files (x86)\gradle\gradle-4.10.3二.然后在控制面板中配置环境变量GRADLE_HOME = C:\Program Files (x86)\gradle\gradle-4.10.3path = C:\P...
2018-12-26 18:07:51 831
原创 win10+scala环境变量配置
一.首先在https://www.scala-lang.org/download/下载所需的scala版本我的scala安装在默认目录:D:\scala二.然后打开控制面板配置环境变量安装scala需要三个变量:SCALA_HOME、Path、ClassPath在系统变量中配置上述三个变量SCALA_HOME = D:\scalaPath = D:\scala\b...
2018-12-26 16:30:05 6338 2
原创 IDE+windows下kafka源码环境搭建
前期准备:step1:安装JDK1.8 step2:安装zookeeper3.4.9https://blog.csdn.net/qq_29425617/article/details/85266606 step3: 安装Gradle-4.10.3https://blog.csdn.net/qq_29425617/article/details/85266509 step4:安装scala...
2018-12-26 15:19:15 443
原创 PyQt5打开文件
实现一个按钮打开文件,文本框显示文件名的功能。 def openfile(self): filename = QFileDialog.getOpenFileName(self) print(filename[0]) print(filename[1]) print(os.path.basename(filename[0])...
2018-11-21 20:27:59 1505
转载 sql执行顺序
查询语句中select from where group by having order by的执行顺序 1.查询中用到的关键词主要包含六个,并且他们的顺序依次为 select--from--where--group by--having--order by 其中select和from是必须的,其他关键词是可选的,这六个关键词的执行顺序 与sql语句的书写顺序并不是一样的...
2018-09-06 14:29:58 151
转载 nextline和nextInt连用问题
https://blog.csdn.net/gg543012991/article/details/52900592在nextInt(),next(),nextDouble(),nextFloat()方法与nextLine()连用并放在nextLine()前面时,就会出现如下错误: System.out.println("请输入矩阵的行数:"); ...
2018-08-13 19:29:07 2677 1
原创 头条笔试
思路:类似于leetcode的合并数组问题import java.util.*;public class no{ static class Interval{ int start; int end; public Interval(int start,int end){ this.start=start...
2018-08-13 19:20:50 170
原创 大数据研发面试
第一视频一面:1.spark常见算子讲一下2.删除链表中重复元素(代码)3.二分查找并返回该元素在数组中的第一个位置4.将字符串数组转换成int数组(不能用parseint会导致溢出)思路:先转换成char类型,然后知道每个字符串的位数,依次用char类型转int去乘位数得到int数组二面:1.二叉树的深度,不用层次遍历、2.实习工作数据仓库遇到了什么问题?都是...
2018-08-11 12:40:18 1227
原创 linux面试
1./dev/null(空设备),又被叫黑洞是一个特殊的设备文件,它丢弃一切写入其中的数据(但报告写入操作成功),读取它则会立即得到一个EOF(end of file,资料源无更多的资料可读取)。空设备通常被用于丢弃不需要的输出流,或作为用于输入流的空文件。2.awk格式:awk '{表达式}' filename3.wc-l 统计行数-c 统计字节数-w 统...
2018-08-10 17:50:09 187
原创 数据研发面试
阿里:一面:1.hive的MapReduce实现过程2.hive中join的MapReduce过程3.你在美团有遇到数据倾斜问题吗,如何解决的4.实时数据如何保证容错性的5.hashmap的实现原理二面:1.你在工作中如何处理数据倾斜的2.distinct和group by的区别3.假如group by导致数据倾斜,你怎么处理4.hadoop和spark...
2018-07-25 22:54:01 2283
原创 nextline()和next()
String input1=sc.next(); System.out.println(input1); String[] str=input1.split(" ");输入数据后提示数组越界。java的nextline()是以回车判断下一次输入;next()用空格/回车都可以断定为下一次输入。解决方法:把next...
2018-07-25 20:26:42 167
原创 特殊乘法
写个算法,对2个小于1000000000的输入,求结果。特殊乘法举例:123 * 45 = 1*4 +1*5 +2*4 +2*5 +3*4+3*5import java.util.*;public class Main { public static void main(String[] args){ Scanner sc=new Scanner(System.i...
2018-07-25 20:22:12 233
原创 合并两个有序链表
将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例:输入:1->2->4, 1->3->4输出:1->1->2->3->4->4思路:递归解决该问题,如果list1的元素小于等于list2的元素,只需将新链表指向该元素,然后新链表的后续元素只需考虑list1的后面元素和list2所...
2018-07-22 16:16:37 98
原创 删除链表的倒数第N个节点
给定一个链表,删除链表的倒数第 n 个节点,并且返回链表的头结点。示例:给定一个链表: 1->2->3->4->5, 和 n = 2.当删除了倒数第二个节点后,链表变为 1->2->3->5.思路:利用双节点解决该问题,首先我们考虑可能只有一个节点需要删除的情况,所以我们添加一个虚拟节点让其指向head。我们假设p1和p2都指向head,...
2018-07-22 15:57:40 150
原创 爬楼梯
假设你正在爬楼梯。需要 n 步你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢?注意:给定 n 是一个正整数。示例 1:输入: 2输出: 2解释: 有两种方法可以爬到楼顶。1. 1 步 + 1 步2. 2 步示例2:输入: 3输出: 3解释: 有三种方法可以爬到楼顶。1. 1 步 + 1 步 + 1 步2. 1...
2018-07-19 00:46:25 764
原创 最大子串和
给定一个整数数组 nums ,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。示例:输入: [-2,1,-3,4,-1,2,1,-5,4],输出: 6解释: 连续子数组 [4,-1,2,1] 的和最大,为 6。思路:当加第i个数时,如果前面i-1个数的和小于0,那么再加第i个数那么得到的数会比第i个数还小,所以就重新开始考虑第i个数以后的数作为最大子串。...
2018-07-19 00:18:03 3490
转载 数据仓库建设
1.数据仓库概要1.1.数据仓库起因 在建设数据仓库之前,数据散落在企业各部门应用的数据存储中,它们之间有着复杂的业务连接关系,从整体上看就如一张巨大的蜘蛛网:结构上错综复杂,却又四通八达。在企业级数据应用上单一业务使用方便,且灵活多变;但涉及到跨业务、多部门联合应用就会存在:①数据来源多样化,管理决策数据过于分散;②数据缺乏标准,难以整合;③数据口径不统一,可信度低;④缺乏数据管控...
2018-07-18 23:31:52 12877 2
原创 星型模型和雪花模型
原文https://blog.csdn.net/u010454030/article/details/74589791星型模型:数仓建模基本都通过维度建模,这时候我们需要将多维度的信息汇总到事实表中,这样就形成了一个星型模型。但这样往往会产生数据冗余,而且客户需要更详细的维度区分,这时候星型模型就不能满足我们的需要了。如(相同省的相同市的不同区,这时候用星型模型就会重复存储数据,产生数据冗余)...
2018-07-18 23:14:48 1185
原创 全量表/增量表/快照表
全量表:没有分区,包含截止目前所有的数据。INSERT OVERWRITE TABLE $target.table PARTITION (datekey='$now.datekey')INSERT OVERWRITE只是删除原有的分区并插入元素,其余分区不受到影响这里创建一个动态分区快照日期,该目标表每天存放的是该天以前所有的数据如select *from table ...
2018-07-18 15:26:01 5652 1
原创 hive常见错误
select id a.namefrom stu aleft join course bon a.id=b.id错误:SemanticException Column xx Found in more than One Tables/Subqueries问题:hivesql中关联时两张表如果出现相同字段则会报错select a.id a.namefrom stu a...
2018-07-10 17:06:58 596
原创 hive中distinct和group by
SELECT COUNT(DISTINCT USER_ID) FROM STU上述sql会将所有USER_ID都shuffle到一个reduce中,如果数据量很大时,速度会变慢。SELECT COUNT(*) FROM (SELECT USER_ID FROM STU GROUP BY USER_ID)上述sql会根据group by 分组的结果产生多个reduce,然后并行执行,数据量很大时速度...
2018-07-05 23:33:59 1952
原创 where 1=1和where 1=0
1.where 1=1 select * from where 1=1 and if(a.id=2,'true','false')加where 1=1不管if有没有满足where后总是有条件的。select * from where if(a.id=2,'true','false')不加where 1=1,如果if条件均不满足则where后无条件,sql报错满足多条件查询页面中不确定的各种因素而采...
2018-07-05 23:30:19 4456 1
原创 sql语句
1.substrSUBSTR (str, pos) // 在str中从pos位置开始截取后面的字符串,标示符从1开始适用于mysql和oracleSUBSTR(str,pos,len) // 在str中从pos位置开始截取len个长度的字符串,标示符从1开始例:Geography 表Region_NameStore_NameEastB...
2018-06-30 19:16:57 147
原创 order by/sort by/distribute by/cluster by
order by是在一个reduce中进行数据的排序sort by是在不同的reduce中进行数据的排序,执行了局部排序之后可以为接下去的全局排序提高不少的效率(其实就是做一次归并排序就可以做到全局排序了)。distribute by是聚合,指定map分配到哪个reducedistribue by和sort by结合起来可以在数据量很大时可以将相同的数据分到同一reduce中去排序distribu...
2018-06-29 23:37:36 175
转载 concat、concat_ws、group_concat函数用法
转自:https://www.cnblogs.com/xbblogs/p/6066386.html一、concat()函数可以连接一个或者多个字符串 CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。 select concat('11','22','33'); 112233二、CONCAT_WS(separat...
2018-06-29 23:36:01 1253
LINUX与UNIX SHELL编程指南
2018-12-07
linux开发基础教程
2018-12-07
数据结构(C语言版)严蔚敏
2018-12-07
深入理解计算机系统(原书第2版)
2018-12-07
人月神话(FrederickP.Brooks.Jr.)
2018-12-07
java案例开发(第二版)源码
2018-12-07
NetworkX手册
2018-12-07
推荐系统实践
2018-07-19
Spark快速大数据分析
2018-07-19
Spark高级数据分析
2018-07-19
深入Linux内核架构
2018-07-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人