渊飞-CSDN博客

原创 Milvus：unknown method GetLoadingProgress for service milvus.proto.milvus.MilvusService

报错内容显示是GRPC通信问题，但是在查询官方文档和Github issue后并没有找到准确的解决方法，仅有类似报错表明是Milvus版本与Java SDK不匹配造成的。笔者这里的Milvus是2.2版本，而JDK是11.0，但是受工程部署所限，没有选择去改JDK的版本。但是令人惊讶的是，尽管报错造成程序退出，但是内存中已经成功加载了具体的collection，因此选择try catch掉这个异常。以Docker部署好Milvus，在Python脚本中加载collection报错。

2023-04-11 11:19:12 629

原创 Jupyterhub找不到GPU问题

非 root 用户安装 cuda/cudnn 环境后，通过修改 PATH 和 LD_LIBRARY_PATH 变量，可以使 tensorflow 成功识别调用 GPU。但是，运行 jupyterhub notebook 后发现 GPU 调用失败...

2023-03-14 19:17:28 1296

原创 CentOS tmux安装配置

【代码】CentOS tmux安装配置。

2023-03-14 19:14:44 789 1

原创 Docker命令整理

同一仓库源可以有多个TAG版本，代表这个仓库源的不同个版本，我们使用REPOSITORY:TAG来定义不同的镜像。--no-prune：Do not delete untagged parents，保留被删镜像中被打标签的父镜像。--limit：只列出N个镜像，默认25个。如果不指定一个镜像的版本标签，例如只使用ubuntu，docker将默认使用ubuntu:latest镜像。-a：列出本地所有的镜像（含历史映像层）REPOSITORY：表示镜像的仓库源。TAG：镜像的标签版本号。-q：只显示镜像ID。

2023-03-14 14:46:01 257

原创 Could not build wheels for pycairo which use PEP 517 and cannot be installed directly

1 背景 CentOS使用igraph时需要依赖ipycairo以及cairocffi，然而安装ipycairo时出现无法编译的问题：Could not build wheels for pycairo which use PEP 517 and cannot be installed directly 2 解决方法 CentOS环境下安装cairo-devel，Ubuntu环境下安装libcairo2-dev [root@localhost ~]# yum install ca

2022-01-28 19:34:46 2683

原创 libstdc++.so.6库环境配置

问题描述导入tensorflow与运行jupyter notebook时发生如下报错[E 13:55:37.334 NotebookApp] Fail to get yarn configuration. /usr/one_edr/system/nodejs/bin/node: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.20' not found (required by /usr/one_edr/system/nodejs/bin/node)

2021-12-09 19:31:02 8163

原创 Python日常拾遗：函数

1 python set()函数 set() 函数创建一个无序不重复元素集，可进行关系测试，删除重复数据 set() 还可以计算交集、差集、并集等。 set()方法的语法： >>> x = set('runoob')>>> y = set('google')>>> x, y (set(['b', 'r', 'u', 'o', 'n']), set(['e', 'o', 'g', 'l'])...

2021-09-20 21:39:42 160

原创 Intellij配置Spark

1配置“Global Libraries”，将Scala SDK作为Global Library 2添加依赖的Jars，在“Project Structure”左侧选择“Modules”，单击“Dependencies”，并选择Spark所需要的Jar文件。 3选择和导入的所有Jar文件位于“External Libraries”目录下，同时可以检查所有的Jar文件是否正确。 ...

2021-09-20 20:06:33 256

原创 Hadoop原理与机制4-2：YARN调度器、调度算法和资源分配方式

1 YARN资源调度器种类 Hadoop作业调度器主要有三种：FIFO、Capacity Scheduler和Fair Scheduler。Apache Hadoop的默认调度器是Capacity Schedular，而CDH的默认调度器是Fair Schedular。如下对这三种调度器进行分别的介绍。 2 FIFO调度器【先入先出调度器】特点：FIFO调度器按照任务到达的时间排序，先到先服务，在当前强调多租户和资源利用率的大环境下，FIFO的使用率并不高。优...

2021-09-12 02:03:10 808

原创 Hadoop原理与机制4-1：YARN工作机制

1 工作机制 MapReduce程序提交到客户端所在的节点。 YARN Runner向ResourceManager申请一个Application。 RM将该应用程序的资源路径返回给YARN Runner。该程序将运行所需资源提交到HDFS上。程序资源提交完毕后，申请运行mrAppMaster。 ResourceManager将用户的请求初始化成一个Task。其中一个NodeManager领取到Task任务。该NodeManager创建容器Container，并产生MRAppm..

2021-09-12 00:27:27 79

原创 Hadoop原理与机制4-0：YARN概述与基础架构

1 YARN概述 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2 YARN基础架构ResouceManager（RM）的主要作用如下资源的分配和调度启动和监控ApplicationMaster 监控NodeManager 处理客户端请求 NodeManager（NM）的主要作用如下：管理单个结点的资源处理来自Resou...

2021-09-12 00:21:45 72

原创 Git常用操作汇总与问题解决

1创建版本库并配置git全局属性针对threatbook的scala迁移工作需要使用git来pull代码，由于git是分布式版本控制系统，所以需要填写用户名和邮箱作为一个标识$ git init$ git config --global user.name "user_name"$ git config --global user.email "user_email" --global表示全局属性，所有的git项目都会共有属性成功后会在windows...

2021-01-08 20:37:07 243

原创 Spark编程模型（三）：Spark算子（4）-Action算子

5-3.1 rdd.reduce通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据>>> from operator import add >>> sc.parallelize([1, 2, 3, 4, 5]).reduce(add) 15 >>> sc.parallelize((2 for _ in range(10))).map(lambda x: 1).cache().reduce(add) 10 &gt

2020-08-27 20:56:16 273

原创 Spark编程模型（三）：Spark算子（3）-Key-Value型(键值对)算子

5-2.1 rdd.partitionBypartitionBy(numPartitions,partitionFunc=<function portable_hash>)作用：对pairRDD进行分区操作，如果原有的partitionRDD和现有的partitionRDD是一致的话就不进行分区，否则会生成shuffleRDD，即会产生shuffle过程。>>> pairs = sc.parallelize([1, 2, 3, 4, 2, 4, 1]).map..

2020-08-27 20:49:49 407

原创 Spark编程模型（三）：Spark算子（2）-双Value型Transformation算子

RDD支持多个Value来进行转换操作，即RDD支持多RDD的计算5-1.1 rdd.union(other RDD) 并集运算返回RDD与其他RDD的结合>>> rdd = sc.parallelize([1, 1, 2, 3]) >>> rdd.union(rdd).collect() [1, 1, 2, 3, 1, 1, 2, 3]5-1.2 rdd.subtract(other RDD) 差集运算返回自身不包括其他RDD的集合&gt

2020-08-27 20:45:31 126

原创 Spark编程模型（三）：Spark算子（1）-单值型Transformation算子

5.1 rdd.mapmap(f,preservesPartitioning=False)作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成>>> rdd = sc.parallelize(["b", "a", "c"]) >>> sorted(rdd.map(lambda x: (x, 1)).collect())[('a', 1), ('b', 1), ('c', 1)]5.2 rdd.mapPartitions..

2020-08-27 20:42:06 159

原创 ImportError: libffi.so.7: cannot open shared object file: No such file or directory解决方法

本机环境Centos7，Arch Linux方法与本文提出解决方案不同。在linux中强制将Anaconda进行更新或者对Python强制更新时，# conda update --force conda使得原机器的python3.6.4版本升级成最新的Anaconda附带python3.6.10版本，出现Importer break的情况，如下所示：ImportError: libffi.so.7: cannot open shared object file: No such fi

2020-07-29 14:08:56 23220 9

原创 Centos 7 安装HBase Thrift步骤

一、官网下载Thrift（最好是官方最新版本）http://www.apache.org/dyn/closer.cgi?path=/thrift/0.13.0/thrift-0.13.0.tar.gz二、安装Thrift所需libevent依赖yum -y install automake libtool flex bison pkgconfig gcc-c++ boost-devel libevent-devel zlib-devel python-devel ruby-devel open

2020-07-08 00:36:40 266

原创 TF-IDF（term frequency-inverse document frequency，词频-逆文档频率）计算及Python部分代码

一、基本定义及公式TF-IDF用来评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率反比下降。如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现（即代表它有明显的区分度），则认为此词或者短语具有很好的类别区分能力，适合分类一些基础概念：文章画像是描述每篇文章以给定一些词。主要是由主题词与关键词组成，两者最大的区别就是主题词经过了规范化处理。关键词：文章中一些词权重...

2020-06-30 21:00:34 1833

原创解决Hive: java.lang.ClassNotFoundException Class org.apache.hive.hcatalog.data.JsonSerDe not found

在启动Hive时，创建一个表并对其添加一个JSON格式匹配ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe':问题出现原因如下图的问题：出现该问题的原因主要在于Hive在初始启动时并没有成功加载用于解析JSON格式的JAR包，而出现的ClassNotFoundException中的类就是此表用到的JsonSerDe，故由此可以得到解决该问题的主要思路，如下有两种解决方法：1. 临时解决找到 hive-hcatalo.

2020-06-06 21:56:39 6544

原创 Spark编程模型（二）：RDD简介

RDD是Spark应用开发过程中最为基本也是最为重要的一类数据结构，RDD被定义为只读、分区化的记录集合，更为通俗来讲，RDD是对原始数据的进一步封装，封装导致两个结果：第一个结果是数据访问权限被限制，数据只能被读，而无法被修改；第二个结果是数据操作功能被强化，使得数据能够实现分布式存储、并发处理、自动容错等诸多功能。Spark的整个计算过程都是围绕数据集RDD来进行。 4.1 ...

2020-03-08 21:01:29 337

原创华为云MapReduce服务-创建简记

近日想要对MapReduce服务探讨一下，来搭建Spark的分析集群，故此记下具体实施的步骤：一、创建对象存储obs（桶服务） ①登陆华为账号，在控制台内选择存储服务，找到对象存储obs 转存失败重新上传取消 ②点击创建桶转存失败重新上传取消 ③桶名称自定，但是名称是全局唯一的，所以需要多...

2020-02-26 20:01:09 805

原创 Spark编程模型（一）：SparkContext的作用

开发人员根据自己的需求，在main函数中调用Spark提供的数据操纵接口，利用集群来对数据执行并操作。Spark为开发人员提供了两类抽象接口。第一类抽象接口是弹性分布式数据集RDD，其是对数据集的抽象封装，开发人员可以通过RDD提供的开发接口来访问和操纵数据集合，而无需了解数据的存储介质（内存或磁盘）、文件系统（本地文件系统、HDFS或Tachyon）、存储结点（本地或远程结点）等诸多实现...

2020-02-22 19:13:24 840

原创 Spark原理与机制初探

1.Spark 作为Spark生态系统的核心，Spark主要提供基于内存计算的功能，不仅包含Hadoop的计算模型MapReduce，还包含很多其他的API，如reduceByKey、groupByKey、foreach、join和filter等。Spark将数据抽象为RDD，有效地扩充了Spark编程模型，使Spark成为多面手，能让交互式查询、流处理、机器学习和图计算无缝交叉融合，极...

2019-09-09 22:29:48 135

原创 Linux操作系统的用户与用户组

1 文件所有者 Linux是个多用户、多任务的系统，因此可能常常会有多人同时使用这台主机来进行工作情况的发生，为了考虑每个人的隐私权以及每个人喜好的工作环境，因此这个“文件所有者”的角色就显得相当重要了。 1.1 用户组用户组最有用的功能之一，就是当你在团队开发资源的时候。而在Linux下面这样的限制是很简单的，可以进行简单的文件权限设置，就能限制非自己团队...

2019-08-01 09:25:57 321

原创 HDFS分布式文件系统

大数据存储是大数据处理与分析的基础。高效、安全地存储与读写数据是提高大数据处理效率的关键。数据可分为结构化数据和非机构化数据，传统的关系型数据库一般用于存储结构化数据，而对大数据环境下海量的非机构化数据，通常采用如HDFS分布式文件系统或者NoSQL数据库进行存储。1）HDFS采用主从结构存储数据，NameNode结点负责集群任务调度，DataNode负责执行任务和存储数据块。NameNo...

2019-08-01 09:22:26 525

原创 MapReduce原理

MapReduce运行阶段数据传递经过输入文件、Map阶段、中间文件、Reduce阶段、输出文件五个阶段，用户程序只与Map阶段和Reduce阶段的Worker直接相关，其他事情由Hadoop平台根据设置自行完成。从用户程序User Program开始，用户程序User Program链接了MapReduce库，实现了最基本的map函数和reduce函数。（1）MapReduce库先...

2019-08-01 09:10:44 136

原创 MapReduce编程概述

MapReduce是一个用于大规模数据集的并行处理的分布式计算的编程框架。MapReduce将一个数据处理过程拆分为Map和Reduce两部分：Map是映射，负责数据的过滤分发；Reduce是规约，负责数据的计算归并。开发人员只需通过编写map和reduce函数，不需要考虑分布式计算框架的运行机制，即可在Hadoop集群上实现分布式运算。MapReduce可以帮助开发人员将精力集中在业务逻...

2019-08-01 09:09:18 684

原创应用VMware来搭建具有三个Linux系统结点的集群

这段时间，给同届的同学搭建了很多次集群，故此把具体步骤再次重新记录下来，提供参考：一、虚拟机Windwos：VMware Workstation ProMAC：VMware Fusion安装：创建空虚拟机 Linux版本：Centos 6.8 或 CentOS 7.2 1611内核虚拟机网络设置 $ su - roo...

2019-05-24 16:16:23 815

原创 Python基础学习六：对象，类属性

①面向对象编程编程的方式：面向过程：根据业务逻辑从上到下写垒代码函数式：将某功能代码封装到函数中，日后便无须重复编写，仅调用函数即可、面向对象：对函数进行分类和封装，让开发“更快更好更强”面向对象编程的两个非常重要的概念：类和对象类是对象的类型，具有相同属性和行为事务的统称。类是抽象的，在使用的时候通常会找到这个类的一个具体存在。定义类： ...

2018-12-12 20:58:17 159

原创 Python基础学习五：变量作用域，匿名函数，内置函数

5.匿名函数匿名函数：定义函数的过程中，没有给定名称的函数就叫做匿名函数；Python中使用lambda表达式来创建匿名函数。lambda来创建匿名函数规则： lambda只是一个表达式，函数体比def简单很多。 lambda的主体是一个表达式，而不是一个代码块，所以不能写太多的逻辑进去。 lambda函数拥有自己的命名空间，且不能访问自有参数列表之外或...

2018-12-04 16:01:29 133

原创 Python基础学习四：for循环，函数，迭代器

12、for循环"""for 变量 in 序列执行的代码块"""list01 = ['joe', 'susan', 'jack' ,'Tom']# 遍历列表for i in list01:print(i)pass空操作，无任何意义，pass语句的使用表示不希望任何代码或命令的执行pass语句是一个空操作，在执行的时候不会产生任何反应pass语句常出现...

2018-12-02 15:29:12 295

原创 Python基础学习三：if else循环嵌套

⑩if...else...嵌套"""if elif 嵌套"""x = int(input('请输入第一个数'))y = int(input('请输入第二个数'))z = int(input('请输入第三个数'))# 先比较x y# if x > y:# if x > z:# print('最大的数是：%d' % x)# else:...

2018-12-02 15:25:18 1930

原创 Python基础学习二：列表，字典，深拷贝与浅拷贝

④使用pop（）方法删除元素：pop方法用于移出列表中的一个元素（默认是最后一个元素），可以指定元素索引，并且返回该元素的值。使用del语句删除元素：如果知道要删除的元素在列表中的位置，可使用del语句删除元素，元素一旦被删除之后就再也无法访问。使用remove（）方法删除元素：当不知道元素索引，只知道元素值的时候，使用remove（）方法删除元素。⑤查询数据 ...

2018-11-27 17:06:25 168

原创 Python基础学习一：输入输出，标识符，字符串

这个Python基础学习序列是基于北风网视频教程所记的笔记，权当是一种学习记录，只有参考价值，转载须经过本人同意方可。①输入输出 print（‘请输入你的名字’） name =input（） print（‘我的名字是’，name）Pycharm UTF-8编码 Ctrl+/多行注释 Alt+1侧边栏展开 np ...

2018-11-24 13:49:05 392

原创用VMware虚拟机安装Linux时所遇到的问题以及解决方法

①安装虚拟机（VMware12 pro）过程中，出现错误1：The cpu has been disabled by the guest operating system. You will need to power off or reset the virtual machine at this point” 解决方法1：:*.vmx文件的最后添加两行: monitor_con...

2018-11-12 18:48:23 8714

duguwanglong的博客