![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ML
皿小草
这个作者很懒,什么都没留下…
展开
-
AI 边缘计算芯片选型
最近在倒腾边缘计算的主板,看了一波资料,大约有以下选型芯片算力库Snapdragon 86515TOPStfSnapdragon 88826TOPStfAmlogic A311D5TOPSpaddle,厂商SDKAmlogic C308X4TOPSpaddle,厂商SDK地平线旭日35TOPS厂商SDK比特大陆 BM168417.2TOPSpaddle...原创 2022-02-20 21:14:55 · 1547 阅读 · 0 评论 -
DeepTables 使用
DeepTables 相关链接API: https://deeptables.readthedocs.io/en/latest/Repo:https://github.com/DataCanvasIO/DeepTableshttps://github.com/DataCanvasIO/Hypernets最近看到开源的 DeepTables, 试用了一下, DeepTables repo 的 example 做得比较好,他们的架构图DeepTables 可以处理结构化数据这一部分,因为原创 2021-10-31 17:51:38 · 704 阅读 · 0 评论 -
MKL blas golang 对比 gonum
这里对比的对象主要是gonum的gonum.org/v1/gonum/floats包,这个包做科学运算还是比较快的,里面直接调汇编代码,比go写的原生计算代码要高效一些。首先,需要安装mkl,下载地址然后安装gosl 这个包 github.com/cpmech/goslblas里面,第一层是vector与vector的操作,验证一个点乘算子package mainimport ( "fmt" "github.com/cpmech/gosl/la/mkl" "gonum.org/v1/gon原创 2020-06-08 20:55:51 · 1337 阅读 · 0 评论 -
推荐系统:ann算法之ngt
在推荐或者搜索场景中,高质量的召回都是很有必要的,有时候ann搜索算法(Approximate Nearest Neighbor)可以帮助我们实现这一个功能ngt是yahoo日本团队基于graph和tree做的的ann搜索工具,地址:https://github.com/yahoojapan/NGT它实现了onng/pnng的算法,对应的论文onng: https://arxiv.org/a...原创 2020-03-22 22:54:18 · 3037 阅读 · 0 评论 -
推荐算法: 百度mobius
论文地址:http://research.baidu.com/Public/uploads/5d12eca098d40.pdf广告不同阶段优化目标不一致普通用户看到的三个阶段,曝光-点击-转化背后是一套复杂的召回排序系统召回阶段:建立query,可以是用户的搜索信息,也可以是广告位的属性或者上下文信息,这个阶段主要考虑相关性排序:根据召回物料估算CTR论文给了一个例子,互联网长尾流量(普通用户比较少关注的物品)中,搜索白玫瑰(white house),由于奔驰与特斯拉是头部流量,那么天然具有原创 2020-06-06 01:21:55 · 1407 阅读 · 0 评论 -
ML调度服务之kube-batch
gang scheduler:翻译应该是,群调度。也就是一个调度单元以一个群(多个pod)为单元,当所有pod同时成功,就是成功的关于k8s scheduler的功能实现,可以参考知乎专栏https://zhuanlan.zhihu.com/p/101908480,里面是以1.16版本作为参考的,质量比较高。从pod到multi pod的调度pod是k8s的最小调度单元,但是,群调度需要在...原创 2020-04-17 00:15:37 · 895 阅读 · 0 评论 -
互联网广告CTR简介
在互联网广告领域,CTR可以反映一个投放平台的投放策略、算法水平、流量的质量。CTR是什么CTR是click-through-rate 的缩写,也就是点击率。相关的概念还有一个叫CVR,Conversion Rate。它们的关系如下图点击转化曝光CTRCVR关键词说明:曝光:一个广告在你的屏幕出现了,就算一次曝光。文本或者图片类的广告基本可以这样理解,对于视频形式的广告,不同厂商的定...原创 2020-04-11 22:10:27 · 1864 阅读 · 0 评论 -
paddle ctr利器DeepFM
(这篇文章先开个头20200408,立个flag,慢慢补全)目录为什么用paddle做ctr预估熟悉数据为什么百度单独生成了一份feat_id 字典?数据处理流程paddle dataset reader评价指标AUC与log_loss混淆矩阵到AUC什么样的AUC是好的AUC组网训练训练环境为什么用paddle做ctr预估因为之前待过广告公司,所以对ctr这块一直有关注。paddle官方...原创 2020-04-08 01:48:09 · 1054 阅读 · 0 评论 -
paddle 线性回归LR以及VisualDL使用
很久之前用tensorflow 写过LR,现在用paddle来实现一遍。由于很多文章都是输出一个简单结果,缺乏对整个过程的数据可视化,这里使用paddle提供的VisualDL作为结果的可视化。VisualDL使用VisualDL的代码仓地址是 https://github.com/PaddlePaddle/VisualDL/这里摘录里面的一个scalar(折线图)例子import ra...原创 2020-04-08 01:17:37 · 744 阅读 · 0 评论 -
时间序列预测库 prophet R版本 docker镜像打包
由于项目有用到prophet,需要把prophet打包到docker镜像。docker hub上没有现成可用的prophet镜像,所以只能使用当时试过以下几种方案ubuntu基础镜像+R环境+在线安装prophetubuntu基础镜像+R环境 可以跑起来,但是调用RScript在线安装prophet的时候失败R基础镜像+在线安装prophetR基础镜像用的是 https://hub.d...原创 2020-04-05 23:10:11 · 307 阅读 · 0 评论 -
golang调用paddle的infer c api
百度的paddlepaddle有go版本的推理接口,通过cgo调用paddle c的推理库,在实际的api服务中,用go做推理服务器是有优势的。开发环境ubuntu 18.04paddle 1.7.1cuda 10.0cudnn7go 1.12python 3.7编译paddlepaddle gpu版本的c库paddle默认提供的是c++版本的推理库,参考 https://www...原创 2020-04-04 23:05:41 · 2198 阅读 · 1 评论 -
ML调度服务-argo源码入门
先讨论一下算法工作流的调度服务,工作流,简单来说是完成一件事的工作流程像这样的就是一个典型的工作流一般来说,工作流是一个有向无环图(DAG)算法工作流也是一个DAG,里面的一个点,就是一个step,目前开发的工作流,有简单到一个step就可以完成的,也有数十个step组成的。每个step,都会有对应的输入,也会有对应的输出,然后构成一个完整的算法pipeline。竞品airflow传送...原创 2020-02-11 22:47:57 · 4786 阅读 · 1 评论 -
ML训练推理的大规模数据吞吐解决思路
一个通用的算法流程是这样的:准备输入文件-算法(读数据、处理、输出)-处理输出文件算法工作流在启动的时候,需要大量的数据,一般是以csv格式提供(为了减轻算法同事读取数据的难度)。这篇文章主要讨论怎么准备输入对于小规模的数据准备来说,问题并不大,但是,对于大规模的数据输入,例如数十GB到TB,考虑的因素就比较多了你的数据不是凭空而来,源头一般是传统DB(mysql、pg等)或者数仓(h...原创 2020-02-11 19:31:18 · 524 阅读 · 0 评论 -
站在应用的角度看nlp的用途
站在应用的用途看nlp的用途这里把分类归结为基础功能和业务功能,业务功能用到基础功能。举个例子,对于人脸识别的算法,人脸识别是一个业务功能,但是基础功能包括了人脸检测、人脸特征提取、特征对比三个基础功能。名称分类描述词法分析基础功能提供分词、词性标注、命名实体识别三大功能。词性标注要求在尽可能小的粒度以内保持尽可能大粒度去识别专有名词、命名实体依存句法分析基础...原创 2019-04-13 12:33:20 · 506 阅读 · 0 评论 -
ubuntu 18.04 ffmpeg cuvid硬解环境搭建
由于最近要在视频流上Mask R-CNN模型,cuda硬解也要上,又要折腾一下环境搭建,在此记录一下。这里的硬解说的是调用nvidia的video codec sdk来加速编解码,使用cuvid硬解的方式有两种,一种是调用ffmpeg已经嵌入的硬解方案,另外一种是先调用ffmpeg再调用codec sdk。从开发难度来说,第一种要稍微简单一些,只需要指定ffmpeg的video codec就可...原创 2019-04-27 23:09:48 · 4109 阅读 · 2 评论 -
pytorch与tensorflow部署角度对比
注意,这文章日期是19年5月18号,所以只是个人对当前这两个框架的一点看法。由于pytorch的动态图特性很py的脚本语言特性结合得比较好,pytorch在algo developer会比较受欢迎,而tf的图需要提前定义和编译(这里只讨论V1,*),易用性要比pytorch差一些,这就是tf 2.0后续要优化的其中一个点。但是,为什么不建议用pytorch,这里从部署的角度来看一下两者的差异:...原创 2019-05-18 23:46:17 · 2849 阅读 · 0 评论 -
xgboost 毒蘑菇mushroom数据集分类
安装 xgboostpip3 install xgboost毒蘑菇数据集毒蘑菇数据集的描述参考:https://archive.ics.uci.edu/ml/datasets/Mushroom毒蘑菇的特征描述如下Attribute Information:1. cap-shape: bell=b,conical=c,convex=x,flat=f, knobbed=k,sunken...原创 2019-06-15 23:19:29 · 7908 阅读 · 0 评论 -
ubuntu cplex安装
一年前安装过一次cplex,最近再次安装的时候,发现老是出现一个异常Preparing to installExtracting the JRE from the installer archive...Unpacking the JRE...Extracting the installation resources from the installer archive...Config...原创 2019-06-23 23:38:50 · 2444 阅读 · 1 评论 -
聊一下优化问题
写这篇文章的背景由于笔者在运筹团队做开发,之前在搜索优化算法的时候,常常搜索到两种内容,一块是ML常用的LP问题的优化(SGD以及其变种AdaGrad/Adam…),另外一块就只有搜索运筹优化(OR)的关键词才能看到的优化(LP/MIP/NP)问题。个人认为,运筹优化的范围要比ML优化问题更广更复杂,面对的难题也更多。毕竟ML的优化问题主要在性能优化上,而运筹的优化问题更多还在实现功能。而且M...原创 2019-04-13 12:14:29 · 267 阅读 · 0 评论