大数据系列
文章平均质量分 87
IE06
运筹+大数据+深度学习+机器学习+图像
展开
-
大数据系列15:lightgbm笔记
建议用conda安装。首先安装miniconda,在官网下载对应的版本。然后将系统的python和pip定位到miniconda文件夹下。然后用conda安装lightgbm,在Mac m2芯片上测试可行。(用pip直接安装通不过编译)。原创 2023-11-24 08:36:19 · 799 阅读 · 0 评论 -
大数据系列14:dask使用简介
anaconda装完了之后会自带dask。中文版文档见https://www.heywhale.com/mw/project/610c8f40fe727700176ae461Dask 带有四个可用的调度程序:· threaded:由线程池支持的调度程序· processes:由进程池支持的调度程序· single-threaded(又名" sync"):同步调度程序,用于调试· distributed:用于在多台计算机上执行图形的分布式调度程序1. 分布式计算dask.distributed类原创 2021-09-16 14:48:39 · 3429 阅读 · 0 评论 -
大数据系列13:milvus大规模向量检索引擎
1. 介绍与安装参考https://milvus.io/cn/docs/home。Milvus 是一款基于云原生架构开发的开源向量数据库,支持查询和管理由机器学习模型或神经网络生成的向量数据。Milvus 在一流的近似最近邻(ANN)搜索库(例如 Faiss、NMSLIB、Annoy)的功能基础上进行扩展,具有按需扩展、流批一体和高可用等特点。下面介绍几种安装方式:Docker compose方法官网说了,只做测试使用。下载docker-compose.standalone.yml 配置文件并保存原创 2021-08-31 14:16:12 · 6810 阅读 · 0 评论 -
大数据系列12:spark graphframe
1. 简介Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。GraphX的代码大部分都是围绕Partition的优化进行的。这原创 2021-06-17 22:01:05 · 684 阅读 · 1 评论 -
大数据系列11:PixieDust,使用spark的jupyter辅助工具
1. 介绍jupyter notebook有很多胶水包很费事,比如典型的matplotlib,画张图要写很多代码:在pixieDust中仅需要display即可,硬生生的把jupyter变成了excel功能点:1)包管理器:类似pip,用于安装spark包,2)快速绘图:使用display展示spark object,包括表格、图表、地图等等3)交互:自带交互插件4)数据库和数据导出5)大数据:基于spark,不用多说2. 基本功能首先要import pixiedust(皮鞋灰尘??原创 2020-11-26 21:32:04 · 999 阅读 · 2 评论 -
大数据系列10:Apache Flink应用案例
1. 案例介绍使用到的中间件:Apache Flink + Analytics Zoo + proxima开发语言:python数据:通过天池平台下载小型的训练集,选手自行将训练集划分成部分训练集和测试集,并在本地训练和调试算法,生成预测结果。在评测机器上,会给定四份数据集,分别是用于训练的历史行动数据集和标签数据集,用于测试打分的确诊病例数据集和实时行动数据集。在历史行动数据集,确诊病例数据集和实时行动数据集中,不同的数据都可能代表同一个类(人)。历史行动数据集包括有确诊病例和非确原创 2020-08-30 21:27:11 · 619 阅读 · 0 评论 -
大数据系列9:mpi4py高性能计算
1 mpi4py高性能计算参考 https://www.jianshu.com/u/59ef38a1d84b并行处理框架主要有MPI、OpenMP和MapReduce(Hadoop)三个(CUDA属于GPU并行编程,这里不提及)。MPI和Hadoop都可以在集群中运行,而OpenMP因为共享存储结构的关系,不能在集群上运行,只能单机。另外,MPI可以让数据保留在内存中,可以为节点间的通信和数据交互保存上下文,所以能执行迭代算法,而Hadoop却不具有这个特性。因此,需要迭代的机器学习算法大多使用MPI来原创 2021-06-16 15:44:43 · 1453 阅读 · 2 评论 -
大数据系列8:kubenetes和docker
Kubernetes(简称K8S) 是Google开源的分布式的容器管理平台,方便我们在服务器集群中管理我们容器化应用。kubectl cluster-info,查询k8s集群信息kubectl get nodes,查询节点信息使用kubectl create deployment和kubectl get deployments创建和查看部署的应用。每一个应用都有一个Pod来托管应用,表示一组一个或者多个应用程序容器(如docker)使用kubectl proxy创建一个proxy...原创 2020-05-14 19:25:51 · 268 阅读 · 0 评论 -
大数据系列7:flink系列
安装安装:brew install apache-flink,这个仅仅有java。如果要用python的话,启动:brew info apache-flinkcd 相应的目录./libexec/bin/start-cluster.sh接着就可以进入web页面啦(http://localhost:8081/)python的方式:pip install apache-flink,如果出现PyYAML问题,执行pip3 install --ignore-installed PyYAML,然后执行p原创 2020-05-09 19:39:43 · 2306 阅读 · 0 评论 -
大数据系列6:python分布式计算dispy和ipyparallel
1. 什么是socketsocket用类似文件管理的方式来做机器之间的数据通信,利用三元组【ip地址,协议,端口】可以进行网络间通信了。Socket通信的数据传输方式,常用的有两种:SOCK_STREAM:数据可以准确无误地到达另一台计算机。常见的 http 协议就使用 SOCK_STREAM 传输数据;SOCK_DGRAM:表示无连接的数据传输方式。计算机只管传输数据,不作数据校验。QQ 视...原创 2020-04-25 13:18:09 · 1533 阅读 · 0 评论 -
大数据系列5:地理信息系统PostGis
1. 安装与配置在centos下安装很简单yum -y install postgresql-serverpostgresql-setup initdb 此外可以再安装一些额外的插件,比如:yum -y install postgis按照这里安装pgrouting进行一些配置,让postgresql可被远程连接登录。进入/var/lib/pgsql/data/postgresq...原创 2019-06-27 15:42:16 · 3653 阅读 · 0 评论 -
大数据系列4:树结构笔记
1. 字典树1.1 前缀树前缀树又叫trie树,来自于retrieval,通常用于实现字典查询。本质上,Trie是一颗存储多个字符串的树,最多26叉。每个节点还需要存储引用计数,如果父节点和子节点的计数差1,说明存在到父节点为止的单词。相邻节点间的边代表一个字符,这样树的每条分支代表一则子串,而树的叶节点则代表完整的字符串。我们做即时响应用户输入的AJAX搜索框时,就是Trie树。1.2 ...原创 2019-06-12 11:28:47 · 676 阅读 · 0 评论 -
大数据系列3:机器学习笔记
支持向量机的学习路线:从回归问题到二分类问题,最大化间隔,max 1/||w||,min ||w||2/2,拉格朗日对偶问题,KKT条件,SMO算法。1. 从线性回归到支持向量机线性回归很简单: 给定一系列(x,y),求线性函数f(x) = w*x + b,使得min Σ(f(x) - y)^2如果y不是连续值,而是离散的分类结果,该怎么处理?特别的,在二分类问题中该怎么...原创 2019-04-08 12:49:28 · 448 阅读 · 3 评论 -
大数据系列2:PySpark概述
读入文件:spam = sc.textFile("spam.txt")normal = sc.textFile("normal.txt")构建词频向量:from pyspark.mllib.feature import HashingTFtf = HashingTF(numFeatures = 100)spamFeatures = spam.map(lambda x:tf.t...原创 2018-08-16 16:39:55 · 1896 阅读 · 0 评论 -
大数据系列1:大数据概述
1. 基本概念Docker:就是操作系统中的chroot。可以理解为你在写一篇论文的时候新建了一个文件夹,所有的东西都在这个文件夹里面。 Host:主机,运行容器的机器。比如我们自己的电脑。 Image:镜像,文件的层次结构,包含如何运行容器的元数据。可以比成一个论文模板。 Container:容器,从镜像启动,包含正在运行的程序的进程。可以比成我们电脑里打开的论文。run相当于打开论文...原创 2018-09-09 14:30:43 · 498 阅读 · 0 评论