自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

奔跑入坑大数据

从智能制造Java开发,从事软硬件系统开发,到奔跑入坑大数据,希望自己能够有一番成就

  • 博客(356)
  • 资源 (9)
  • 收藏
  • 关注

原创 python2和python3的同时安装

因为python不是高版本兼容低版本,所以有时候还要进行版本类的使用,大部分的代码还都是pyhton2开发,因此需要进行Python2和python3的安装官网下载对应的python版本:https://www.python.org/安装完毕后,创建project可以自主选择对应的python版本...

2022-02-10 13:39:47 879

转载 Python2写csv文件中文乱码问题

前言 python2最大的坑在于中文编码问题,遇到中文报错首先加u,再各种encode、decode。 当list、tuple、dict里面有中文时,打印出来的是Unicode编码,这个是无解的。 对中文编码纠结的建议尽快换python3吧,python2且用且珍惜! csv中文乱码 。前言python2最大的坑在于中文编码问题,遇到中文报错首先加u,再各种encode、decode。当list、tuple、dict里面有中文时,打印出来的是Unicode编码,这个是无解的。对中文编

2022-02-09 15:09:39 3393

原创 vi/vim的记录

2022-02-04 13:27:51 913

原创 maven缺失ojdbc6解决方法(手动安装ojdbc6)

maven缺失ojdbc6解决方法(手动安装ojdbc6)1.首先下载ojdbc6jar包jar下载地址1(需登录) jar下载地址2(直接下载)2.进入到jar包所在文件夹,执行cmd命令cmd终端执行下面命令mvn install:install-file -Dfile=ojdbc6-11.2.0.3.jar -DgroupId=com.oracle -DartifactId=ojdbc6 -Dversion=11.2.0.3 -Dpackaging=jar -DgeneratePom=t

2022-01-18 16:31:11 1037

原创 python的pip基本知识

1. pip install XX --安装对应库2. pip install xx=1.0.2 --安装指定库版本3. pip uninstall xx --卸载对应的指定版本库函数

2022-01-18 16:25:06 128

原创 lt-week-声网-03-解决智力问题

题目:解决治理问题思路:这道题看完之后,想到了 从一个节点跳到另外一个节点,就把他想成了深度求数值(dfs实际上求深度有解,而不适用于求极值),求极值贪心和动态规划,实际上这道题是一个动态规划的题;写完dfs时间超时,实际上会处理很多重复位置的值;动态规划的必备三个条件:重复子问题,最优子结构,状态转移方程通过动态规划我们可以知道:动态规划先1. 需要DP数组存储状态:2.通过当前状态所依赖的状态,来计算当前状态。本题能够知道 在 f(i)处 我们只有两个操作:(1)

2022-01-18 16:24:29 215

转载 Kafka中的HW、LEO、ISR等分别代表什么?

HW、LEO等概念和上一篇文章所说的ISR有着紧密的关系,如果不了解 ISR 可以先看下ISR相关的介绍。HW(High Watermark)俗称高水位,它标识了一个特定的消息偏移量(offset),消费者只能拉取到这个offset之前的消息。下图表示一个日志文件,这个日志文件中只有9条消息,第一条消息的offset(LogStartOffset)为0,最有一条消息的offset为8,offset为9的消息使用虚线表示的,代表下一条待写入的消息。日志文件的 HW 为6,表示消费者只能拉取o...

2022-01-18 16:24:05 1712

原创 Java 中Pair的认识

实习期间 在做一个比较复杂的数据抽取,抽取的结果我总是用Map进行封装,这时候leader说你可以用pair进行封装,因为在进行抽取的过程中,因为业务抽取原因,会出现key值重复但是value不重复;(傻着用value前两个字符和key拼接),最终才知道还有Pair的存在;重点:Pair 可以存储key-value 但是使用List<Pair<String,String>> 就是一个可以重复key的MapMap可以存储多个Key-value,但是会覆盖相同的key.

2022-01-14 17:56:27 1397

原创 kafka创建topic是报错:replication factor: 1 larger than available brokers: 0

因为好久没创建过kafka topic 经排查是zookeeper的地址有问题因此地址需要一致:kafka-topics.sh --create --topic test --zookeeper hadoop112:2181/kafka --partitions 5 --replication-factor 1

2022-01-12 00:20:14 1427

原创 python中xlrd.open_workbook_python解决open()函数、xlrd.open_workbook()函数文件名包含中文,sheet名包含中文报错的问题...

1. 检查文件名是否包含中文路径,如果包含中文路径则会进行抛错

2022-01-11 19:24:51 1242

转载 Java 使Json格式化输出

1 使用阿里的FastJson1.1 项目的pom.xml依赖<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.58</version></dependency>1.2 Java示例代码(1) 导入的包:com.alibaba.fastjson

2022-01-11 17:40:19 9851 1

原创 python设置永久国内镜像源

1,windows环境设置国内镜像源在user目录下创建pip文件夹,pip文件夹下并创建pip.ini文件,文件内容如下:(下面提供下载链接)[global]index-url = https://pypi.tuna.tsinghua.edu.cn/simple[install]trusted-host = pypi.tuna.tsinghua.edu.cn上面index-url 取值为镜像源地址   trusted-host 取值为镜像源的域名可以点击这里下载配置文件...

2022-01-11 12:34:28 2895 1

原创 Python基本运行环境问题 : python 、pip 找不到 如何解决

1. 配置python的环境变量1.1找到安装目录1.2配置环境变量2.配置pip的环境变量就可以进行使用 pip install -xx

2022-01-11 12:32:54 1114

原创 约瑟夫环初识

约瑟夫环(约瑟夫问题)是一个数学的应用问题:已知 n 个人(以编号1,2,3…n分别表示)围坐在一张圆桌周围。从编号为 k 的人开始报数,数到 m 的那个人出圈;他的下一个人又从 1 开始报数,数到 m 的那个人又出圈;依此规律重复下去,直到剩余最后一个胜利者。例如:有10个人围成一圈进行此游戏,每个人编号为 1-10 。若规定数到 3 的人出圈。则游戏过程如下。(1)开始报数,第一个数到 3 的人为 3 号,3 号出圈。  1, 2, 【3】, 4, 5, 6, 7, 8, 9, 10。(2)

2022-01-06 17:47:23 166

原创 UDF和GenericUDF区别

Java开发转了大数据,竟然被拉去做了非结构的ETL抽取,真的是比做后端伤脑筋,没有可借鉴的框架,只能根据数据抽取,第一份大数据实习,写完抽取代码后,需要写成UDF和UDTF进行使用。记录一下UDF和GenericUDF的区别:UDF属于基础的UDF:简单的udf实现很简单,只需要继承udf,然后实现evaluate()方法就行了。evaluate()允许重载。...

2022-01-06 17:40:00 2819

原创 hive自定义函数所涉及的源码参考

1. hive udtf的函数中的实体源码参考:Hive之ObjectInspector详解

2022-01-06 11:39:07 933

原创 大数据相关论文的阅读计划

1. 夸父AI 大数据并行运算 地址https://arxiv.org/abs/2110.14883

2022-01-06 11:01:25 740

原创 29-lt-不同路径

62.不同路径思路:当看到路径的时候就总是想着使用DFS去解决问题,最终信心满满的超时;看完题解恍然大悟动态规划最经典,继续加油再接再厉。困难:可能是自己还是不能真正理解 不能够举一反三,希望能够再接再厉结果:dfs会超时:dfs为什么会超时,以为会重复的去计算相关的路径使用动态规划:public int uniquePaths(int m, int n) { //DFS + 回溯 求得所有的路径 需要加 visited 不能走走过的路径 直

2021-12-28 17:19:53 204

原创 28-lt-旋转图像

48.旋转图像思路:1. 一开始看到题目的时候,能够想到的是 找到对应的数学函数公式,发现太久了哈哈,最后发现有点类似之前数据的翻转题目,(x,y)->(x+2,y-4)等等。。就是分步骤进行操作结果就是可以通过先上下 y = 1/2y来进行折叠再通过y = 1/2x对称可以得到90度翻转,实际上也就是先180度翻转最后在除以2就是90度翻转难点:关键要能想到数学的矩阵的关系结果:class Solution { public void..

2021-12-28 14:34:47 431

原创 git的相关指令使用

基本指令git add把要提交的文件的信息添加到暂存区中。当使用 git commit 时,将依据暂存区中的内容来进行文件的提交。它通常将现有路径的当前内容作为一个整体添加,但是通过一些选项,它也可以用于添加内容,只对所应用的工作树文件进行一些更改,或删除工作树中不存在的路径了。“索引”保存工作树内容的快照,并且将该快照作为下一个提交的内容。 因此,在对工作树进行任何更改之后,并且在运行git commit命令之前,必须使用git add命令将任何新的或修改的文件添加到索引。该命...

2021-12-21 16:33:18 73

原创 hive下进行查询自定义函数的方法

在hive中,经常需要查询自定义的以及系统的函数使用方法,一般情况下在hive中使用下面三个命令即可:1.查看所有的函数:show functions;2. 查看date相关的函数:(模糊查询)show functions like 函数名示例:show functions like '*date*' (模糊查询)3.粗粒度查看函数的使用方法:desc function 函数名示例:desc function round;4. 细粒度查看函数使用方法:desc f.

2021-12-21 14:18:50 3845

原创 Spark-shell下无法回退

配好了Spark集群后,先用pyspark写了两个小例子,但是发现Tab键没有提示,于是打算转到scala上试试,在spark-shell下有提示了,但是发现不能退格,而且提示也不是复写,而是追加,这样根本就没法写程序. 解决办法:1.打开会话选项2.终端-仿真 在终端中选择Linux3.映射键 勾选两个选项4.至此已经成功了,但是如果远程长时间未操作 就会中断连接,下次再操作时需要等待,其实也很影响使用,在这里也附上解决...

2021-12-20 16:36:06 1247

转载 无人驾驶综述

论文介绍论文为2019年发布在Robotics上的"A Survey of Autonomous Driving: Common Practices and Emerging Technologies"[1]论文对比作者首先比较了目前的无人驾驶综述论文,存在的问题是目前无人驾驶综述论文的侧重点都不一样,所以作者准备做一个详尽的调查,下图是不同论文的侧重点:可以看到上述论文都只是针对无人驾驶的某几个模块做了介绍,而最后一个是本论文的介绍,比较完备(除了没有control模块):Conn

2021-12-19 12:16:10 881

原创 Jsoup的对非结构化数据清洗

一 介绍一门心思想java转向大数据,最后选择去实习期间到一家医疗大数据相关公司,让我进行对非结构化的xml文档进行 语义的抽取,去到第一天装环境,第二天进行抽取数据好在有java的基础下,选择使用了dom4j,(期间也有想到使用爬虫相关的类似beautifulsoup,因为之前玩过爬虫),在进行提取数据之后...

2021-12-16 12:55:49 403

原创 27-lt-下一个排列

一 思路1. 首先这道题的题意都没弄明白,没能够读懂题意;看评论才知道原来是干什么的;就是进行一个数组内,求出下一个比其大的排列 例如: [1,2,3] 比他大的是 [1,3,2] [2,1,3] [2,3,1] [3,1,2] [3,2,1]然后要求是尽可能小 只能位[1,3,2]所以,可以看成为是 从尾部找到相邻的递增区域,然后进行和区域内第一个大于递增位置交换,最后进行递增遍历区域内数组二 问题难点关键是要明白题目中的含义,加上各个数组内的反转情况。三 结果...

2021-12-14 13:51:07 627

原创 刷题----各种算法的总结

常见算法总结:回溯算法解决一个回溯问题,实际上就是一个决策树的遍历过程。你只需要思考 3 个问题:1、路径:也就是已经做出的选择。2、选择列表:也就是你当前可以做的选择。3、结束条件:也就是到达决策树底层,无法再做选择的条件。result = []def backtrack(路径, 选择列表): if 满足结束条件: result.add(路径) return for 选择 in 选择列表: 做...

2021-12-10 11:07:14 165

原创 26-lt-三数之和

一 思路看到本题的思路就是 排序+三重循环 进行求出所有存在的解明显时间复杂度 为O(n^3) 最终超时;思考过后能够知道 ,之前做过两数之和,实际上可以将第一次循环的值作为后面两数之和的target;是滴 这种可解二 难点注意循环操作 进行处理重复值的问题三 结果class Solution { public List<List<Integer>> threeSum(int[] nums) {

2021-12-09 11:01:23 74

原创 解决使用Maven测试Spark Scala出错:java.lang.NoClassDefFoundError

解决方法:添加依赖<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --><dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.0</...

2021-12-08 16:17:51 593

原创 Spark和Scala的版本查看

1. 进行使用Spark程序操作出现版本错误提示,进行spark和scala的版本查看2.前往maven进行查看spark和scala版本查看3. spark3.0 以后,不再支持 scala2.11spark3.0 以后,只能用 scala2.12...

2021-12-08 14:16:51 3741

转载 spark执行出错--记录class scala.collection.mutable.WrappedArray overrides final method toBuffer.

问题描述class scala.collection.mutable.WrappedArray overrides final method toBuffer.本质上是因为我们使用的SDK和Spark版本不兼容导致的,例如我的spark版本是spark 2.3.4,而我使用了scala-sdk 2.13.2,就导致了这个错误。PS: 吐槽一下sdk向后兼容做的真的不太好(CUDA也是)解决办法下载适合你的spark版本的scala-sdk版本,这里给出一份版本对应关系表。spark版本 ..

2021-12-06 16:15:19 295

翻译 Kylin、druid、presto、impala四种即席查询对比--(转载)

一、什么是即席查询即席查询是用户根据自己的需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表。普通查应用查询是定制开发的,即席查询是用户自定义查询条件理解:快速的执行自定义SQL(可能无法提前运算和预测)重点关注:数据存储格式和架构理解了什么是即席查询之后,下面会从定义、框架原理、优化等几个方面介绍这四个框架、最后会做一个对比,面对不同的业务选择合适的框架二、Kylin (over)1、定义:Apache kylin是一个开源分布式分析引擎、提供Hadoop、Spark之

2021-12-02 16:30:56 2457

原创 24-lt-剪绳子问题

剪绳子问题最大的感受是 对于数学能力考察要求很高,可以进行数学的推导公式直接求出最大临界点的数值。 3 是一个比较特殊的数字点,因此将数字进行分解出更可能多的3数值一思路直接 分解出更多的3n/3 得到的a指数 n%3得到b余数根据余数b的值 进行判断 结果运算表达式:b==0 3^n b==1 (比较特殊 如果是1的话可以补充一个3 换为2*2) 3^n-1 * 4 b==2 直接进行 3^n * 2二 问题点进行规律查询 能够得到 3 是比较特殊的点...

2021-12-02 11:52:38 76

原创 25-lt-相对名次

相对名次一思路easy题,没什么技巧,直接进行借助map确定排列顺序二问题三结果public static String[] findRelativeRanks(int[] score) { Map<Integer, String> map = new HashMap<Integer, String>(); //深拷贝浅拷贝类型 引用类型都会指向相对应的地址 int[] temp = score.cl

2021-12-02 11:37:41 60

原创 23-lt-二进制中的1的个数

主要考察的位运算,基础知识薄弱 需加强记忆做这道题的前提,首先进行熟悉一下我们的位运算:位运算概念剑指 Offer 15. 二进制中1的个数public class Solution { // you need to treat n as an unsigned value public int hammingWeight(int n) { //1. 直接进行按位 &的循环遍历比较 // int res = 0;

2021-12-01 13:36:19 82

转载 Java中位运算复习记录

按位与运算符(&)参加运算的两个数据,按二进制位进行“与”运算。运算规则:0&0=0; 0&1=0; 1&0=0; 1&1=1; 即:两位同时为“1”,结果才为“1”,否则为0例如:3&5 即 0000 0011 & 0000 0101 = 0000 0001 因此,3&5的值得1。另,负数按补码形式参加按位与运算。“与运算”的特殊用途:(1)清零。如果想将一个单元清零,即使...

2021-12-01 13:23:14 57

原创 22-lt-重建二叉树

剑指offer07.重建二叉树一 思路看到二叉树首先想到遍历操作 BFS DFS;由前序和中序重建二叉树,首先想到的是 root根节点,前序第一个便是root根节点,根据root找到 中序位置,能够得到左右子树,可以根据左右子树依次进行遍历。二 难点怎么选择重建二叉树操作? 左右子树节点位置的考虑分析三 结果/** * Definition for a binary tree node. * public class TreeNode { * int

2021-11-30 13:22:11 550

原创 UDTF内写Main函数测试报错找不到主题类

最近接手其他人的项目,使用自定义UDTF来完成复杂异构数据的解析操作,根据文档进行测试之前的测试用例,发现Main函数识别不到。<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.3.2</version> <scope>provided</scop

2021-11-30 12:21:34 288

原创 Maven中repositories、distributionManagement、pluginRepositories中repository的区别

Maven中repositories、distributionManagement、pluginRepositories中repository的区别:一、repositories中的repository表示从什么库地址可以下载项目依赖的库文件id,库的IDname,库的名称url,库的URLlayout,在Maven 2/3中都是default,只有在Maven 1.x中才是legacyreleases,库中版本为releases的构件snapshots,库中版本为snapshots

2021-11-30 10:04:01 646

原创 21-lt-岛屿数量

200.岛屿数量岛屿数量是比较常见的,也会经常进行出其他变种题,如病毒扩散题,都是用DFS进行求解最直接,按道理来说能够使用DFS求解的往往都能够使用BFS进行求解。一、思路直接进行选择使用DFS进行求解,只要是进行求极值的往往都会使用到DFS和BFS操作二、遇到难题base caseDFS实际上就是递归操作,我们需要进行找到返回条件即可,主要使用的是将岛屿的位置变为其他,进行操作统计数量。三、结果DFS:class Solution { .

2021-11-29 22:45:03 180

原创 20-lt-N叉树最大深度

最近忙于从上海搬到北京实习,少刷了好多天的算法,选择大数据方向,希望自己能够坚持不懈,有所成就。559.N叉树的最大深度一、思路看到二叉树最大深度就是进行遍历操作,首先选择使用的便是二叉树的深度遍历的变形,(二叉树的深度遍历还是选择前序遍历最好)N叉树是同样的规则;本题目能使用BFS、DFS的操作二、难点根据二叉树最大深度进行操作即可三、结果DFS:/*// Definition for a Node.class Node { public int va

2021-11-28 23:46:19 92

data-测试数据.zip

测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据

2021-12-12

data-测试数据.zip

测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据 测试数据

2021-12-12

Hadoop安装包.zip

Hadoop安装包.zip

2021-11-18

apache-kylin-3.0.1-bin.tar.gz-安装包

kylin安装包

2021-11-16

azkaban2.5-all.rar

大数据job工作流-azkaban所有安装文件

2021-11-09

docker适用的一个工具类

docker适用的一个工具类:docker使用 java

2021-06-11

ojdbc6手动完善补充maven仓库

进行完善maven仓库确实ojdbc包问题

2021-06-02

LSTM-Outputs.txt

学习文档资料,可用测试数据

2020-04-18

python3.7的tensorflow安装包.7z

进行tensorflow的软件下载路-径,进行学习下载,欢迎进行下载学习,目前小白学习AI

2020-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除