大王go巡山-CSDN博客

原创面试经验

春招一份好的实习是秋招的一块敲门砖，可自己却很晚才意识到这个问题，一直想着暑假再去准备。最后在看着身边大佬都去了腾讯、网易实习，感觉不能再等下去了，在4月中旬开始寻找实习。路程一度异常坎坷，本着不放弃的精神在各个平台（拉钩/boss直聘/实习僧/牛客）投递了无数份简历，面试是一个不断学习的过程，把自己面试的问题记录下来，也许下次你就可以给面试官大佬聊聊你对问题的扩展。offer是一个很玄学的东西，...

2018-05-15 16:15:31 3177

原创 dasddsada

{“train_HorzLR_16196751401397136”: {“metric_name”: “HorzLR_16196751401397136”,“metric_namespace”: “train”,“metric_meta”: {“metric_type”: “EVALUATION_SUMMARY”},“data”: {“auc”: {“value”: 0.178182},“ks”: {“value”: 0.0}}},“train_HorzLR_16196751

2021-12-27 17:50:57 426

原创 2021-06-01

Apache Atlas引言当下金融行业场景丰富，如风控、智慧决策等不同种类的业务依赖于机器学习、深度学习等AI框架，算法人员在针对不同业务建模过程中，难免会遇到处理相同特征的情况。如何在大量复杂特征中帮助算法和业务人员更清晰的了解元数据信息、理解特征之间的血缘关系，更快速地理解业务场景，构建算法模型成为了特征平台亟需解决的问题。基础概念Apache Atlas官网给出的定义十分明确”a scalable and extensible set of core foundational govern

2021-06-01 00:26:13 504

原创 docker安装和卸载

docker安装和卸载一、docker安装：1> 配置yum和docker仓库源（加速下载rpm包）mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bakcurl https://mirrors.aliyun.com/repo/Centos-7.repo >> /etc/yum.repos.d/CentOS-Base.repocurl https://mirrors.aliyun.co

2021-04-17 16:02:13 149

原创 Centos安装Code-server及支持java和scala

引言：Code-server自19年发布以来，以其易部署和多平台使用受到大多数开发者喜爱，只要在公共服务器上部署后，用户可以在任何地方记录自己的想法并实现。Code-server的这些优势自然也被java用户所喜爱，本文主要讲解如何在服务器上安装相应的插件以支持用户开发java和scala业务代码。本文主要讲解如何在离线环境完成部署。Code-server的安装用户首先在下载需要的code-server版本（建议不要下载过高的版本，vscode的插件对code-server有一定延迟）解压后我们需

2021-03-21 15:58:25 1369

原创 jupyterlab支持spark和pyspark（跨集群）

引言：目前数据分析人员常用到jupyterlab来进行前期的数据探索，但纯净版只支持简单的python，不能满足数据分析人员的需求，如何为数据分析人员提供大数据集群下的数据访问就成了需要解决的问题。当前jupyter提供了一些官方kernel供用户使用，如最早的sparkmagic（）和最近新的开源项目Apache Toree（）都可以满足通过spark和pyspark方式对大数据集群数据的访问。对sparkmagic和toree调研分析后发现：sparkmagic：基于Apache livy实现

2021-03-15 00:02:10 999 1

原创 python读取hive方案分析

python读取hive方案对比引言最近接到一项任务–开发python工具，方便从HDFS读取文件和Hive表数据。当前网上的方案大多是通过第三方python包实现，只需导入指定pypi包即可完成，这种方案虽然在功能上具有可行性，但是当数据量级增大时，读取数据效率低下，无法满足业务场景需要，为此需调研其他方案实现python读取Hive表功能。

2021-03-06 20:42:08 8257

原创 Git学习

Git是目前世界上最先进的分布式版本控制系统CVS及SVN都是集中式的版本控制系统，而Git是分布式版本控制系统所有的版本控制系统，其实只能跟踪文本文件的改动，比如TXT文件，网页，所有的程序代码等等。而图片、视频这些二进制文件，虽然也能由版本控制系统管理，但没法跟踪文件的变化ls -ah //查看隐藏文件1.Git创建仓库 1）创建一个目录 2）git...

2019-07-22 00:35:28 102

原创 Maven学习

Maven是什么？Apache Maven是一个软件项目管理和综合工具。基于项目对象模型（POM）的概念，Maven可以从一个中心资料片管理项目构建，报告和文件。Maven项目的结构和内容在一个XML文件中声明，pom.xml 项目对象模型（POM），这是整个Maven系统的基本单元。所有 POM 文件都需要 project 元素和三个必需字段：groupId，artifactId，ver...

2019-07-21 14:19:58 102

原创 Python运行问题：Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.

最近更新numpy包后当导入numy和networkx包运行python会报错：Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.解决方法：1.更新anaconda本身conda update anaconda2.更新numpy、mkl和networkx包conda update numpyconda upda...

2019-05-16 11:30:32 1560

原创 kafka学习笔记三--kafka生产者

kafka有着自定义的网络协议，使用者只要遵守该协议格式，就可向kafka发送和拉取消息。老版本通过scala实现的生产者客户端已经被标记“废弃”，最新版本的通过java实现的KafkaProducer为我们实现同步/异步/发送消息，批量发送、超时重发等功能提供了便利。我们可以在Kafka clients模块的org.apache.kafka.client.producer包里找到该API的具体实...

2019-02-07 20:26:27 275

原创 kafa学习笔记二--kafka Tool

本章主要学习kafka里一些管理脚本，通过脚本学习我们可以更方便的学习和使用kafka。kafka-server-start脚本启动kafka server kafka-server-stop脚本关闭kafka server kafka-topics脚本负责kafka中Topic相关操作。如：创建Topic，查询Topic详细信息，添加分区并完成新增的副本等等...

2019-02-07 12:25:50 2799

转载消息队列

本文内容思维导图：　　“RabbitMQ？”“Kafka？”“RocketMQ？”...在日常学习与开发过程中，我们常常听到消息队列这个关键词。我也在我的多篇文章中提到了这个概念。可能你是熟练使用消息队列的老手，又或者你是不懂消息队列的新手，不论你了不了解消息队列，本文都将带你搞懂消息队列的一些基本理论。如果你是老手，你可能从本文学到你之前不曾注意的一些关于消息队列的重要概念，如果你是新手...

2019-01-03 22:56:20 126

原创 Kafka学习笔记一--Kafka入门

一.说到Kafka之前，我们首先了解消息系统（又称消息队列）是一个存放消息的容器，当我们需要使用消息的时候可以取出消息供自己使用，其主要有两种模式：队列模式（又称点对点模式）：多个消费者读取消息队列，每条消息只发送给一个消费者。发布/订阅模式：多个消费者订阅主题，主题的每条记录会发送给所有的消费者。二.Apache Kafka是一个分布式的、基于发布/订阅的消息系统，其由Scala...

2018-12-30 12:30:11 359

原创 win10+Zookeeper环境配置

一.首先在https://mirrors.cnnic.cn/apache/zookeeper/下载所需的Zookeeper版本(我下载是3.4.9)安装目录：D:\zookeeper-3.4.9二.在D:\zookeeper-3.4.9\conf中把zoo_sample.cfg修改为zoo.cfg文件里面内容做如下修改# The number of milliseconds of...

2018-12-26 18:16:57 4699

原创 Gradle环境变量配置

一.首先在https://gradle.org/releases/下载所需的版本（本文配置的4.10.3）我的Gradle安装在C:\Program Files (x86)\gradle\gradle-4.10.3二.然后在控制面板中配置环境变量GRADLE_HOME = C:\Program Files (x86)\gradle\gradle-4.10.3path = C:\P...

2018-12-26 18:07:51 791

原创 win10+scala环境变量配置

一.首先在https://www.scala-lang.org/download/下载所需的scala版本我的scala安装在默认目录：D:\scala二.然后打开控制面板配置环境变量安装scala需要三个变量：SCALA_HOME、Path、ClassPath在系统变量中配置上述三个变量SCALA_HOME = D:\scalaPath = D:\scala\b...

2018-12-26 16:30:05 6302 2

原创 IDE+windows下kafka源码环境搭建

前期准备：step1：安装JDK1.8 step2：安装zookeeper3.4.9https://blog.csdn.net/qq_29425617/article/details/85266606 step3：安装Gradle-4.10.3https://blog.csdn.net/qq_29425617/article/details/85266509 step4：安装scala...

2018-12-26 15:19:15 418

原创 PyQt5打开文件

实现一个按钮打开文件，文本框显示文件名的功能。 def openfile(self): filename = QFileDialog.getOpenFileName(self) print(filename[0]) print(filename[1]) print(os.path.basename(filename[0])...

2018-11-21 20:27:59 1471

转载 sql执行顺序

查询语句中select from where group by having order by的执行顺序 1.查询中用到的关键词主要包含六个，并且他们的顺序依次为 select--from--where--group by--having--order by 其中select和from是必须的，其他关键词是可选的，这六个关键词的执行顺序与sql语句的书写顺序并不是一样的...

2018-09-06 14:29:58 135

转载 nextline和nextInt连用问题

https://blog.csdn.net/gg543012991/article/details/52900592在nextInt()，next()，nextDouble()，nextFloat()方法与nextLine()连用并放在nextLine()前面时，就会出现如下错误： System.out.println("请输入矩阵的行数："); ...

2018-08-13 19:29:07 2611 1

原创头条笔试

思路：类似于leetcode的合并数组问题import java.util.*;public class no{ static class Interval{ int start; int end; public Interval(int start,int end){ this.start=start...

2018-08-13 19:20:50 149

原创大数据研发面试

第一视频一面：1.spark常见算子讲一下2.删除链表中重复元素（代码）3.二分查找并返回该元素在数组中的第一个位置4.将字符串数组转换成int数组（不能用parseint会导致溢出）思路：先转换成char类型，然后知道每个字符串的位数，依次用char类型转int去乘位数得到int数组二面：1.二叉树的深度，不用层次遍历、2.实习工作数据仓库遇到了什么问题？都是...

2018-08-11 12:40:18 1203

原创 linux面试

1./dev/null(空设备)，又被叫黑洞是一个特殊的设备文件，它丢弃一切写入其中的数据（但报告写入操作成功），读取它则会立即得到一个EOF(end of file，资料源无更多的资料可读取)。空设备通常被用于丢弃不需要的输出流，或作为用于输入流的空文件。2.awk格式：awk '{表达式}' filename3.wc-l 统计行数-c 统计字节数-w 统...

2018-08-10 17:50:09 168

原创数据研发面试

阿里：一面：1.hive的MapReduce实现过程2.hive中join的MapReduce过程3.你在美团有遇到数据倾斜问题吗，如何解决的4.实时数据如何保证容错性的5.hashmap的实现原理二面：1.你在工作中如何处理数据倾斜的2.distinct和group by的区别3.假如group by导致数据倾斜，你怎么处理4.hadoop和spark...

2018-07-25 22:54:01 2255

原创 nextline()和next()

String input1=sc.next(); System.out.println(input1); String[] str=input1.split(" ");输入数据后提示数组越界。java的nextline()是以回车判断下一次输入；next()用空格/回车都可以断定为下一次输入。解决方法：把next...

2018-07-25 20:26:42 152

原创特殊乘法

写个算法，对2个小于1000000000的输入，求结果。特殊乘法举例：123 * 45 = 1*4 +1*5 +2*4 +2*5 +3*4+3*5import java.util.*;public class Main { public static void main(String[] args){ Scanner sc=new Scanner(System.i...

2018-07-25 20:22:12 218

原创合并两个有序链表

将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例：输入：1->2->4, 1->3->4输出：1->1->2->3->4->4思路：递归解决该问题，如果list1的元素小于等于list2的元素，只需将新链表指向该元素，然后新链表的后续元素只需考虑list1的后面元素和list2所...

2018-07-22 16:16:37 81

原创删除链表的倒数第N个节点

给定一个链表，删除链表的倒数第 n 个节点，并且返回链表的头结点。示例：给定一个链表: 1->2->3->4->5, 和 n = 2.当删除了倒数第二个节点后，链表变为 1->2->3->5.思路：利用双节点解决该问题，首先我们考虑可能只有一个节点需要删除的情况，所以我们添加一个虚拟节点让其指向head。我们假设p1和p2都指向head，...

2018-07-22 15:57:40 129

原创爬楼梯

假设你正在爬楼梯。需要 n 步你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢？注意：给定 n 是一个正整数。示例 1：输入： 2输出： 2解释：有两种方法可以爬到楼顶。1. 1 步 + 1 步2. 2 步示例2：输入： 3输出： 3解释：有三种方法可以爬到楼顶。1. 1 步 + 1 步 + 1 步2. 1...

2018-07-19 00:46:25 743

原创最大子串和

给定一个整数数组 nums ，找到一个具有最大和的连续子数组（子数组最少包含一个元素），返回其最大和。示例:输入: [-2,1,-3,4,-1,2,1,-5,4],输出: 6解释: 连续子数组 [4,-1,2,1] 的和最大，为 6。思路：当加第i个数时，如果前面i-1个数的和小于0，那么再加第i个数那么得到的数会比第i个数还小，所以就重新开始考虑第i个数以后的数作为最大子串。...

2018-07-19 00:18:03 3423

转载数据仓库建设

1.数据仓库概要1.1.数据仓库起因在建设数据仓库之前，数据散落在企业各部门应用的数据存储中，它们之间有着复杂的业务连接关系，从整体上看就如一张巨大的蜘蛛网：结构上错综复杂，却又四通八达。在企业级数据应用上单一业务使用方便，且灵活多变；但涉及到跨业务、多部门联合应用就会存在：①数据来源多样化，管理决策数据过于分散；②数据缺乏标准，难以整合；③数据口径不统一，可信度低；④缺乏数据管控...

2018-07-18 23:31:52 12681 2

原创星型模型和雪花模型

原文https://blog.csdn.net/u010454030/article/details/74589791星型模型：数仓建模基本都通过维度建模，这时候我们需要将多维度的信息汇总到事实表中，这样就形成了一个星型模型。但这样往往会产生数据冗余，而且客户需要更详细的维度区分，这时候星型模型就不能满足我们的需要了。如（相同省的相同市的不同区，这时候用星型模型就会重复存储数据，产生数据冗余）...

2018-07-18 23:14:48 1154

原创全量表/增量表/快照表

全量表：没有分区，包含截止目前所有的数据。INSERT OVERWRITE TABLE $target.table PARTITION (datekey='$now.datekey')INSERT OVERWRITE只是删除原有的分区并插入元素，其余分区不受到影响这里创建一个动态分区快照日期，该目标表每天存放的是该天以前所有的数据如select *from table ...

2018-07-18 15:26:01 5539 1

原创 hive常见错误

select id a.namefrom stu aleft join course bon a.id=b.id错误：SemanticException Column xx Found in more than One Tables/Subqueries问题：hivesql中关联时两张表如果出现相同字段则会报错select a.id a.namefrom stu a...

2018-07-10 17:06:58 490

原创 hive中distinct和group by

SELECT COUNT(DISTINCT USER_ID) FROM STU上述sql会将所有USER_ID都shuffle到一个reduce中，如果数据量很大时，速度会变慢。SELECT COUNT(*) FROM （SELECT USER_ID FROM STU GROUP BY USER_ID）上述sql会根据group by 分组的结果产生多个reduce，然后并行执行，数据量很大时速度...

2018-07-05 23:33:59 1881

原创 where 1=1和where 1=0

1.where 1=1 select * from where 1=1 and if(a.id=2,'true','false')加where 1=1不管if有没有满足where后总是有条件的。select * from where if(a.id=2,'true','false')不加where 1=1,如果if条件均不满足则where后无条件，sql报错满足多条件查询页面中不确定的各种因素而采...

2018-07-05 23:30:19 4353 1

原创 sql语句

1.substrSUBSTR (str, pos) // 在str中从pos位置开始截取后面的字符串，标示符从1开始适用于mysql和oracleSUBSTR(str,pos,len) // 在str中从pos位置开始截取len个长度的字符串，标示符从1开始例：Geography 表Region_NameStore_NameEastB...

2018-06-30 19:16:57 124

原创 order by/sort by/distribute by/cluster by

order by是在一个reduce中进行数据的排序sort by是在不同的reduce中进行数据的排序,执行了局部排序之后可以为接下去的全局排序提高不少的效率（其实就是做一次归并排序就可以做到全局排序了）。distribute by是聚合，指定map分配到哪个reducedistribue by和sort by结合起来可以在数据量很大时可以将相同的数据分到同一reduce中去排序distribu...

2018-06-29 23:37:36 145

转载 concat、concat_ws、group_concat函数用法

转自：https://www.cnblogs.com/xbblogs/p/6066386.html一、concat()函数可以连接一个或者多个字符串　　CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。如有任何一个参数为NULL ，则返回值为 NULL。　　select concat('11','22','33'); 112233二、CONCAT_WS(separat...

2018-06-29 23:36:01 1121

LINUX与UNIX SHELL编程指南

本书共分五部分，详细介绍了shell编程技巧，各种UNIX命令及语法，还涉及了UNIX下的文字处理以及少量的系统管理问题。本书内容全面、文字简洁流畅，适合Shell编程人员学习、参考。

2018-12-07

linux开发基础教程

主要内容包括：Linux简介与安装、Linux的用户接口与文本编辑器、系统管理、磁盘与文件管理、软件包管理、MySQL与PHP、组建Linux局域网与网络互联、提供Internet服务和Linux中的Shell编程。

2018-12-07

数据结构(C语言版)严蔚敏

《数据结构》（C语言版）是为“数据结构”课程编写的教材，也可作为学习数据结构及其算法的C程序设计的参数教材。本书的前半部分从抽象数据类型的角度讨论各种基本类型的数据结构及其应用；后半部分主要讨论查找和排序的各种实现方法及其综合分析比较。其内容和章节编排1992年4月出版的《数据结构》（第二版）基本一致，但在本书中更突出了抽象数据类型的概念。全书采用类C语言作为数据结构和算法的描述语言。本书概念表述严谨，逻辑推理严密，语言精炼，用词达意，并有配套出版的《数据结构题集》（C语言版），便于教学，又便于自学。本书后附有光盘。光盘内容可在DOS环境下运行的以类C语言描述的“数据结构算法动态模拟辅助教学软件，以及在Windows环境下运行的以类PASCAL或类C两种语言描述的“数据结构算法动态模拟辅助教学软件”。本书可作为计算机类专业或信息类相关专业的本科或专科教材，也可供从事计算机工程与应用工作的科技工作者参考。

2018-12-07

深入理解计算机系统(原书第2版)

本书从程序员的视角详细阐述计算机系统的本质概念，并展示这些概念如何实实在在地影响应用程序的正确性、性能和实用性。全书共12章，主要内容包括信息的表示和处理、程序的机器级表示、处理器体系结构、优化程序性能、存储器层次结构、链接、异常控制流、虚拟存储器、系统级I/O、网络编程、并发编程等。书中提供大量的例子和练习，并给出部分答案，有助于读者加深对正文所述概念和知识的理解。通过掌握程序是如何映射到系统上，以及程序是如何执行的，读者能够更好地理解程序的行为为什么是这样的，以及效率低下是如何造成的。本书适合那些想要写出更快、更可靠程序的程序员阅读，也适合作为高等院校计算机及相关专业本科生、研究生的教材。本书的最大优点是为程序员描述计算机系统的实现细节，帮助其在大脑中构造一个层次型的计算机系统，从最底层的数据在内存中的表示到流水线指令的构成，到虚拟存储器，到编译系统，到动态加载库，到最后的用户态应用。

2018-12-07

人月神话(FrederickP.Brooks.Jr.)

《人月神话》探索了达成一致性的困难和解决的方法，并探讨了软件工程管理的其他方面。在《人月神话（英文版）》中，既有很多发人深省的观点，又有大量软件工程的实践，为每个复杂项目的管理者给出了自己的真知灼见大型编程项目深受由于人力划分产生的管理问题的困扰，保持产品本身的概念完整性是一个至关重要的需求。《人月神话(英文版)》探索了达成一致性的困难和解决的方法，并探讨了软件工程管理的其他方面。《人月神话(英文版)》适合任何软件开发行业的从业人员阅读，对软件开发人员、软件项目经理、系统分析师更是必读之作。

2018-12-07

考研数据结构1800题

数据结构考题1800题，含完整题目、详细答案解析。 7z压缩包，用winrar或者7-zip解开。

2018-12-07

java案例开发（第二版）源码

Java案例开发集锦(第二版)书本上的源代码第1章 Java与Swing 案例1：屏幕捕获工具案例2：文本阅读器案例3：简单的名片管理系统案例4：鼠标画线案例5：鼠标操作案例6：计算器程序案例7：数字时钟案例8：动画效果与颜色的控制第2章 Java与线程案例1：一个完整的线程池的实例案例2：鸭子凫水动画案例3：生产者一消费者模型的简单实现案例4：定时关机案例5：多线程TCP端口扫描程序案例6：一个简单的年历生成程序案例7：将GIF和JPG图像转换成VRML格式第3章 Java与I/O 案例1：使用多线程删除指定目录及子目录下所有指定文件案例2：压缩文件案例3：解压缩Zip文件案例4：批量改名案例5：文件分割器案例6：管道流实现线程间的通信案例7：排序对象第4章 Java与游戏案例1：Java扫雷案例2：黑白棋案例3：象棋游戏案例4：一个简单的弹球游戏案例5：找不同案例6：八皇后问题第5章 Java与网络案例1：简单的多线程服务器案例2：用Java实现的HTTP服务器端例程案例3：一个简单的HTML浏览器案例4：用JavaMail发送邮件案例5：Java版MSN 案例6：Java实现 HTTP队列下载案例7：Java实现HTTP验证第6章 Java与数据库案例1：Access数据库编程中查询结果的表格式输出案例2：SQL Server数据库编程中查询结果的表格式输出案例3：MySQL数据库编程中查询结果的表格式输出案例4：Oracle OCI数据库编程案例5：网吧计费系统第7章 J2ME技术案例1：九宫格游戏案例2：五子棋游戏案例3：手机背单词案例4：用J2ME与ASP建立数据库连接案例5：利用J2ME开发联网程序实例第8章 J2EE技术案例1：一个用Servlet实现购物车的程序案例2：连接数据库的JavaBean 案例3：测试安全性代码案例4：用EJB实现的用户消费信息登记系统案例5：Fibonacci数列案例6：简单的图书信息管理系统第9章 Web服务与其他案例1：用Servlet生成图像验证码案例2：获取JVM系统属性案例3：密码生成器案例4：数据库数据转成XML文件案例5：网页计数器案例6：Java打印程序案例7：用SunJCE进行文件的加密和解密第10章 Java综合案例综合案例1：多页面文本编辑器综合案例2：“逃亡者”手机游戏综合案例3：网上CD销售系统综合案例4：航空查询订票系统

2018-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

LINUX与UNIX SHELL编程指南

linux开发基础教程

数据结构(C语言版)严蔚敏

深入理解计算机系统(原书第2版)

人月神话(FrederickP.Brooks.Jr.)

考研数据结构1800题

java案例开发（第二版）源码

NetworkX手册

推荐系统实践

Spark快速大数据分析

Spark高级数据分析

深入Linux内核架构

空空如也