带着希望活下去-CSDN博客

原创 python2和python3的同时安装

因为python不是高版本兼容低版本，所以有时候还要进行版本类的使用，大部分的代码还都是pyhton2开发，因此需要进行Python2和python3的安装官网下载对应的python版本：https://www.python.org/安装完毕后，创建project可以自主选择对应的python版本...

2022-02-10 13:39:47 879

前言 python2最大的坑在于中文编码问题，遇到中文报错首先加u，再各种encode、decode。当list、tuple、dict里面有中文时，打印出来的是Unicode编码，这个是无解的。对中文编码纠结的建议尽快换python3吧，python2且用且珍惜！ csv中文乱码。前言python2最大的坑在于中文编码问题，遇到中文报错首先加u，再各种encode、decode。当list、tuple、dict里面有中文时，打印出来的是Unicode编码，这个是无解的。对中文编

2022-02-09 15:09:39 3393

原创 vi/vim的记录

2022-02-04 13:27:51 913

原创 maven缺失ojdbc6解决方法（手动安装ojdbc6）

maven缺失ojdbc6解决方法（手动安装ojdbc6）1.首先下载ojdbc6jar包jar下载地址1(需登录) jar下载地址2(直接下载)2.进入到jar包所在文件夹，执行cmd命令cmd终端执行下面命令mvn install:install-file -Dfile=ojdbc6-11.2.0.3.jar -DgroupId=com.oracle -DartifactId=ojdbc6 -Dversion=11.2.0.3 -Dpackaging=jar -DgeneratePom=t

2022-01-18 16:31:11 1037

原创 python的pip基本知识

1. pip install XX --安装对应库2. pip install xx=1.0.2 --安装指定库版本3. pip uninstall xx --卸载对应的指定版本库函数

2022-01-18 16:25:06 128

原创 lt-week-声网-03-解决智力问题

题目：解决治理问题思路：这道题看完之后，想到了从一个节点跳到另外一个节点，就把他想成了深度求数值（dfs实际上求深度有解，而不适用于求极值），求极值贪心和动态规划，实际上这道题是一个动态规划的题；写完dfs时间超时，实际上会处理很多重复位置的值；动态规划的必备三个条件：重复子问题，最优子结构，状态转移方程通过动态规划我们可以知道：动态规划先1. 需要DP数组存储状态：2.通过当前状态所依赖的状态，来计算当前状态。本题能够知道在 f(i)处我们只有两个操作：(1)

2022-01-18 16:24:29 215

转载 Kafka中的HW、LEO、ISR等分别代表什么？

HW、LEO等概念和上一篇文章所说的ISR有着紧密的关系，如果不了解 ISR 可以先看下ISR相关的介绍。HW（High Watermark）俗称高水位，它标识了一个特定的消息偏移量（offset），消费者只能拉取到这个offset之前的消息。下图表示一个日志文件，这个日志文件中只有9条消息，第一条消息的offset（LogStartOffset）为0，最有一条消息的offset为8，offset为9的消息使用虚线表示的，代表下一条待写入的消息。日志文件的 HW 为6，表示消费者只能拉取o...

2022-01-18 16:24:05 1712

原创 Java 中Pair的认识

实习期间在做一个比较复杂的数据抽取，抽取的结果我总是用Map进行封装，这时候leader说你可以用pair进行封装，因为在进行抽取的过程中，因为业务抽取原因，会出现key值重复但是value不重复；（傻着用value前两个字符和key拼接），最终才知道还有Pair的存在；重点：Pair 可以存储key-value 但是使用List<Pair<String,String>> 就是一个可以重复key的MapMap可以存储多个Key-value,但是会覆盖相同的key.

2022-01-14 17:56:27 1397

原创 kafka创建topic是报错：replication factor: 1 larger than available brokers: 0

因为好久没创建过kafka topic 经排查是zookeeper的地址有问题因此地址需要一致：kafka-topics.sh --create --topic test --zookeeper hadoop112:2181/kafka --partitions 5 --replication-factor 1

2022-01-12 00:20:14 1427

原创 python中xlrd.open_workbook_python解决open()函数、xlrd.open_workbook()函数文件名包含中文，sheet名包含中文报错的问题...

1. 检查文件名是否包含中文路径，如果包含中文路径则会进行抛错

2022-01-11 19:24:51 1242

转载 Java 使Json格式化输出

1 使用阿里的FastJson1.1 项目的pom.xml依赖<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.58</version></dependency>1.2 Java示例代码(1) 导入的包:com.alibaba.fastjson

2022-01-11 17:40:19 9851 1

原创 python设置永久国内镜像源

1，windows环境设置国内镜像源在user目录下创建pip文件夹，pip文件夹下并创建pip.ini文件，文件内容如下：（下面提供下载链接）[global]index-url = https://pypi.tuna.tsinghua.edu.cn/simple[install]trusted-host = pypi.tuna.tsinghua.edu.cn上面index-url 取值为镜像源地址　　 trusted-host 取值为镜像源的域名可以点击这里下载配置文件...

2022-01-11 12:34:28 2895 1

原创 Python基本运行环境问题： python 、pip 找不到如何解决

1. 配置python的环境变量1.1找到安装目录1.2配置环境变量2.配置pip的环境变量就可以进行使用 pip install -xx

2022-01-11 12:32:54 1114

原创约瑟夫环初识

约瑟夫环（约瑟夫问题）是一个数学的应用问题：已知 n 个人（以编号1，2，3…n分别表示）围坐在一张圆桌周围。从编号为 k 的人开始报数，数到 m 的那个人出圈；他的下一个人又从 1 开始报数，数到 m 的那个人又出圈；依此规律重复下去，直到剩余最后一个胜利者。例如：有10个人围成一圈进行此游戏，每个人编号为 1-10 。若规定数到 3 的人出圈。则游戏过程如下。（1）开始报数，第一个数到 3 的人为 3 号，3 号出圈。 1， 2，【3】， 4， 5， 6， 7， 8， 9， 10。（2）

2022-01-06 17:47:23 166

原创 UDF和GenericUDF区别

Java开发转了大数据，竟然被拉去做了非结构的ETL抽取，真的是比做后端伤脑筋，没有可借鉴的框架，只能根据数据抽取,第一份大数据实习，写完抽取代码后，需要写成UDF和UDTF进行使用。记录一下UDF和GenericUDF的区别：UDF属于基础的UDF:简单的udf实现很简单，只需要继承udf，然后实现evaluate()方法就行了。evaluate()允许重载。...

2022-01-06 17:40:00 2819

原创 hive自定义函数所涉及的源码参考

1. hive udtf的函数中的实体源码参考：Hive之ObjectInspector详解

2022-01-06 11:39:07 933

原创大数据相关论文的阅读计划

1. 夸父AI 大数据并行运算地址https://arxiv.org/abs/2110.14883

2022-01-06 11:01:25 740

原创 29-lt-不同路径

62.不同路径思路：当看到路径的时候就总是想着使用DFS去解决问题，最终信心满满的超时；看完题解恍然大悟动态规划最经典，继续加油再接再厉。困难：可能是自己还是不能真正理解不能够举一反三，希望能够再接再厉结果：dfs会超时：dfs为什么会超时，以为会重复的去计算相关的路径使用动态规划：public int uniquePaths(int m, int n) { //DFS + 回溯求得所有的路径需要加 visited 不能走走过的路径直

2021-12-28 17:19:53 204

原创 28-lt-旋转图像

48.旋转图像思路：1. 一开始看到题目的时候，能够想到的是找到对应的数学函数公式，发现太久了哈哈，最后发现有点类似之前数据的翻转题目，（x,y）->(x+2,y-4)等等。。就是分步骤进行操作结果就是可以通过先上下 y = 1/2y来进行折叠再通过y = 1/2x对称可以得到90度翻转，实际上也就是先180度翻转最后在除以2就是90度翻转难点：关键要能想到数学的矩阵的关系结果：class Solution { public void..

2021-12-28 14:34:47 431

原创 git的相关指令使用

基本指令git add把要提交的文件的信息添加到暂存区中。当使用 git commit 时，将依据暂存区中的内容来进行文件的提交。它通常将现有路径的当前内容作为一个整体添加，但是通过一些选项，它也可以用于添加内容，只对所应用的工作树文件进行一些更改，或删除工作树中不存在的路径了。“索引”保存工作树内容的快照，并且将该快照作为下一个提交的内容。因此，在对工作树进行任何更改之后，并且在运行git commit命令之前，必须使用git add命令将任何新的或修改的文件添加到索引。该命...

2021-12-21 16:33:18 73

原创 hive下进行查询自定义函数的方法

在hive中，经常需要查询自定义的以及系统的函数使用方法，一般情况下在hive中使用下面三个命令即可：1.查看所有的函数：show functions;2. 查看date相关的函数：（模糊查询）show functions like 函数名示例：show functions like '*date*' （模糊查询）3.粗粒度查看函数的使用方法：desc function 函数名示例：desc function round;4. 细粒度查看函数使用方法：desc f.

2021-12-21 14:18:50 3845

原创 Spark-shell下无法回退

配好了Spark集群后,先用pyspark写了两个小例子，但是发现Tab键没有提示，于是打算转到scala上试试，在spark-shell下有提示了，但是发现不能退格，而且提示也不是复写，而是追加，这样根本就没法写程序. 解决办法：1.打开会话选项2.终端-仿真在终端中选择Linux3.映射键勾选两个选项4.至此已经成功了,但是如果远程长时间未操作就会中断连接，下次再操作时需要等待，其实也很影响使用，在这里也附上解决...

2021-12-20 16:36:06 1247

转载无人驾驶综述

论文介绍论文为2019年发布在Robotics上的"A Survey of Autonomous Driving: Common Practices and Emerging Technologies"[1]论文对比作者首先比较了目前的无人驾驶综述论文，存在的问题是目前无人驾驶综述论文的侧重点都不一样，所以作者准备做一个详尽的调查，下图是不同论文的侧重点：可以看到上述论文都只是针对无人驾驶的某几个模块做了介绍，而最后一个是本论文的介绍，比较完备（除了没有control模块）：Conn

2021-12-19 12:16:10 881

原创 Jsoup的对非结构化数据清洗

一介绍一门心思想java转向大数据，最后选择去实习期间到一家医疗大数据相关公司，让我进行对非结构化的xml文档进行语义的抽取，去到第一天装环境，第二天进行抽取数据好在有java的基础下，选择使用了dom4j，（期间也有想到使用爬虫相关的类似beautifulsoup，因为之前玩过爬虫），在进行提取数据之后...

2021-12-16 12:55:49 403

原创 27-lt-下一个排列

一思路1. 首先这道题的题意都没弄明白，没能够读懂题意；看评论才知道原来是干什么的；就是进行一个数组内，求出下一个比其大的排列例如： [1,2,3] 比他大的是 [1,3,2] [2,1,3] [2,3,1] [3,1,2] [3,2,1]然后要求是尽可能小只能位[1,3,2]所以，可以看成为是从尾部找到相邻的递增区域，然后进行和区域内第一个大于递增位置交换，最后进行递增遍历区域内数组二问题难点关键是要明白题目中的含义，加上各个数组内的反转情况。三结果...

2021-12-14 13:51:07 627

原创刷题----各种算法的总结

常见算法总结：回溯算法解决一个回溯问题，实际上就是一个决策树的遍历过程。你只需要思考 3 个问题：1、路径：也就是已经做出的选择。2、选择列表：也就是你当前可以做的选择。3、结束条件：也就是到达决策树底层，无法再做选择的条件。result = []def backtrack(路径, 选择列表): if 满足结束条件: result.add(路径) return for 选择 in 选择列表: 做...

2021-12-10 11:07:14 165

原创 26-lt-三数之和

一思路看到本题的思路就是排序+三重循环进行求出所有存在的解明显时间复杂度为O（n^3）最终超时；思考过后能够知道，之前做过两数之和，实际上可以将第一次循环的值作为后面两数之和的target；是滴这种可解二难点注意循环操作进行处理重复值的问题三结果class Solution { public List<List<Integer>> threeSum(int[] nums) {

2021-12-09 11:01:23 74

原创解决使用Maven测试Spark Scala出错：java.lang.NoClassDefFoundError

解决方法：添加依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.0</...

2021-12-08 16:17:51 593

原创 Spark和Scala的版本查看

1. 进行使用Spark程序操作出现版本错误提示,进行spark和scala的版本查看2.前往maven进行查看spark和scala版本查看3. spark3.0 以后，不再支持 scala2.11spark3.0 以后，只能用 scala2.12...

2021-12-08 14:16:51 3741

转载 spark执行出错--记录class scala.collection.mutable.WrappedArray overrides final method toBuffer.

问题描述class scala.collection.mutable.WrappedArray overrides final method toBuffer.本质上是因为我们使用的SDK和Spark版本不兼容导致的，例如我的spark版本是spark 2.3.4，而我使用了scala-sdk 2.13.2，就导致了这个错误。PS：吐槽一下sdk向后兼容做的真的不太好(CUDA也是)解决办法下载适合你的spark版本的scala-sdk版本，这里给出一份版本对应关系表。spark版本 ..

2021-12-06 16:15:19 295

翻译 Kylin、druid、presto、impala四种即席查询对比--（转载）

一、什么是即席查询即席查询是用户根据自己的需求，灵活的选择查询条件，系统根据用户的选择生成相应的统计报表。普通查应用查询是定制开发的，即席查询是用户自定义查询条件理解：快速的执行自定义SQL（可能无法提前运算和预测）重点关注：数据存储格式和架构理解了什么是即席查询之后，下面会从定义、框架原理、优化等几个方面介绍这四个框架、最后会做一个对比，面对不同的业务选择合适的框架二、Kylin (over)1、定义：Apache kylin是一个开源分布式分析引擎、提供Hadoop、Spark之

2021-12-02 16:30:56 2457

原创 24-lt-剪绳子问题

剪绳子问题最大的感受是对于数学能力考察要求很高，可以进行数学的推导公式直接求出最大临界点的数值。 3 是一个比较特殊的数字点，因此将数字进行分解出更可能多的3数值一思路直接分解出更多的3n/3 得到的a指数 n%3得到b余数根据余数b的值进行判断结果运算表达式：b==0 3^n b==1 (比较特殊如果是1的话可以补充一个3 换为2*2) 3^n-1 * 4 b==2 直接进行 3^n * 2二问题点进行规律查询能够得到 3 是比较特殊的点...

2021-12-02 11:52:38 76

原创 25-lt-相对名次

相对名次一思路easy题，没什么技巧，直接进行借助map确定排列顺序二问题三结果public static String[] findRelativeRanks(int[] score) { Map<Integer, String> map = new HashMap<Integer, String>(); //深拷贝浅拷贝类型引用类型都会指向相对应的地址 int[] temp = score.cl

2021-12-02 11:37:41 60

原创 23-lt-二进制中的1的个数

主要考察的位运算，基础知识薄弱需加强记忆做这道题的前提，首先进行熟悉一下我们的位运算：位运算概念剑指 Offer 15. 二进制中1的个数public class Solution { // you need to treat n as an unsigned value public int hammingWeight(int n) { //1. 直接进行按位 &的循环遍历比较 // int res = 0;

2021-12-01 13:36:19 82

转载 Java中位运算复习记录

按位与运算符（&）参加运算的两个数据，按二进制位进行“与”运算。运算规则：0&0=0; 0&1=0; 1&0=0; 1&1=1; 即：两位同时为“1”，结果才为“1”，否则为0例如：3&5 即 0000 0011 & 0000 0101 = 0000 0001 因此，3&5的值得1。另，负数按补码形式参加按位与运算。“与运算”的特殊用途：（1）清零。如果想将一个单元清零，即使...

2021-12-01 13:23:14 57

原创 22-lt-重建二叉树

剑指offer07.重建二叉树一思路看到二叉树首先想到遍历操作 BFS DFS;由前序和中序重建二叉树，首先想到的是 root根节点，前序第一个便是root根节点，根据root找到中序位置，能够得到左右子树，可以根据左右子树依次进行遍历。二难点怎么选择重建二叉树操作？左右子树节点位置的考虑分析三结果/** * Definition for a binary tree node. * public class TreeNode { * int

2021-11-30 13:22:11 550

原创 UDTF内写Main函数测试报错找不到主题类

最近接手其他人的项目，使用自定义UDTF来完成复杂异构数据的解析操作，根据文档进行测试之前的测试用例，发现Main函数识别不到。<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.3.2</version> <scope>provided</scop

2021-11-30 12:21:34 288

原创 Maven中repositories、distributionManagement、pluginRepositories中repository的区别

Maven中repositories、distributionManagement、pluginRepositories中repository的区别：一、repositories中的repository表示从什么库地址可以下载项目依赖的库文件id，库的IDname，库的名称url，库的URLlayout，在Maven 2/3中都是default，只有在Maven 1.x中才是legacyreleases，库中版本为releases的构件snapshots，库中版本为snapshots

2021-11-30 10:04:01 646

原创 21-lt-岛屿数量

200.岛屿数量岛屿数量是比较常见的，也会经常进行出其他变种题，如病毒扩散题，都是用DFS进行求解最直接，按道理来说能够使用DFS求解的往往都能够使用BFS进行求解。一、思路直接进行选择使用DFS进行求解，只要是进行求极值的往往都会使用到DFS和BFS操作二、遇到难题base caseDFS实际上就是递归操作，我们需要进行找到返回条件即可，主要使用的是将岛屿的位置变为其他，进行操作统计数量。三、结果DFS：class Solution { .

2021-11-29 22:45:03 180

原创 20-lt-N叉树最大深度

最近忙于从上海搬到北京实习，少刷了好多天的算法，选择大数据方向，希望自己能够坚持不懈，有所成就。559.N叉树的最大深度一、思路看到二叉树最大深度就是进行遍历操作，首先选择使用的便是二叉树的深度遍历的变形，（二叉树的深度遍历还是选择前序遍历最好）N叉树是同样的规则；本题目能使用BFS、DFS的操作二、难点根据二叉树最大深度进行操作即可三、结果DFS：/*// Definition for a Node.class Node { public int va

2021-11-28 23:46:19 92