自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

素质云笔记

营销数据科学：因果推断，CDP，用户画像，短视频挖掘等

原创推荐 | 微软SAR近邻协同过滤算法相关问题（三）

遇到的问题贴…持续追加…参考相关帖：推荐 | 微软SAR近邻协同过滤算法解析（一）推荐 | 微软SAR近邻协同过滤算法拆解（二）练习题︱ python 协同过滤ALS模型实现：商品推荐 + 用户人群放大1 问题一：模型预测之后Prediction一直为0模型预测之后Prediction一直为0，同时发现model.item_similarity对角阵只有1，如下：array([[1, 0, 0, ..., 0, 0, 0], [0, 1, 0, ..., 0, 0, 0],.

2020-09-10 18:08:56 415

原创推荐 | 微软SAR近邻协同过滤算法拆解（二）

推荐 | 微软SAR近邻协同过滤算法解析（一）前面这篇介绍了整个SAR算法，算法本身比较容易理解。本篇主要对一下里面有趣的小函数。文章目录1 对角方阵求jaccard / lift2 矩阵取top-k函数3 sparse稀疏矩阵构造4 一些评价指标：NDCG、MAP、MRR、HR、ILS、ROC、AUC、F1等4.1 Hit Ratio(HR)4.2 Mean Average Precision(MAP)1 对角方阵求jaccard / lift这个发生在CCC矩阵co-occurence mat

2020-09-09 14:29:26 1952

原创推荐 | 微软SAR近邻协同过滤算法解析（一）

SAR是一种快速,可扩展的自适应算法,可根据用户交易历史记录提供个性化推荐.它通过理解项目之间的相似性来推动,并向用户具有现有亲和力的项目推荐类似项目.SAR is a fast scalable adaptive algorithm for personalized recommendations based on user transaction history and items description. The core idea behind SAR is to recommend it.

2020-09-08 19:09:19 1005

原创 scipy.sparse、pandas.sparse、sklearn稀疏矩阵的使用

单机环境下，如果特征较为稀疏且矩阵较大，那么就会出现内存问题，如果不上分布式 + 不用Mars/Dask/CuPy等工具，那么稀疏矩阵就是一条比较容易实现的路。文章目录1 scipy.sparse1.1 SciPy 几种稀疏矩阵类型1.2 lil_matrix1.3 矩阵的通用属性1.4 稀疏矩阵存取2 pandas.sparse2.1 SparseArray2.2 新建SparseDataFrame2.3 格式转化2.4 稀疏矩阵的属性2.5 scipy.sparse与pandas.sparse3 s

2020-09-03 16:41:08 6172 1

转载 Python使用sftp实现上传和下载功能(实例代码)

参考：Python—实现sftp客户端（连接远程服务器）import paramiko transport = paramiko.Transport(("106.15.88.182", 10022)) # 获取Transport实例transport.connect(username="root", password="123456") # 建立连接 # 创建sftp对象，SFTPClient是定义怎么传输文件、怎么交互文件sftp = paramiko.SFTPClient.fr

2020-08-07 19:13:18 1790

原创 sklearn中多种编码方式——category_encoders（one-hot多种用法）

离散型编码的Python库，里面封装了十几种（包括文中的所有方法）对于离散型特征的编码方法，接口接近于Sklearn通用接口，非常实用可以使用多种不同的编码技术把类别变量转换为数值型变量，并且符合sklearn模式的转换。官方github：https://github.com/scikit-learn-contrib/category_encoders官方文档：http://contrib.scikit-learn.org/category_encoders/#这个库的作者将类别编码分为两类,无

2020-08-06 22:50:50 21083 5

原创 python - 机器学习lightgbm相关实践

相关文章：R+python︱XGBoost极端梯度上升以及forecastxgb（预测）+xgboost（回归）双案例解读python︱sklearn一些小技巧的记录（训练集划分/pipelline/交叉验证等）GBDT一个藤上，进化的xgb以及lgb。比较好的几则练习代码：QLMX/data_mining_modelsAnfany/Machine-Learning-for-Beginner-by-Python3文章目录0 相关理论0.1 内存更小0.2 速度更快0.3 直接支持类别特征

2020-08-06 18:58:14 1538

原创 linux ubuntu系统安装dotnet / Azcopy

如果有小伙伴使用微软的blob进行文件管理的话，可能会用到。文章目录一 centos安装1 安装.net core 1.1.1版本2 安装azcopy3 一些报错3.1 但是dotnet版本不够3.2 libunwind/libicu一直安装不上4 其他系统azcopy安装5 python操作blob二 azcopy使用1 使用 AzCopy 和 Blob 存储传输数据一 centos安装之前在centos参考的是：CentOS 7安装Azcopy1 安装.net core 1.1.1版本.n

2020-08-03 22:19:58 1907

原创练习题︱ python 协同过滤ALS模型实现：商品推荐 + 用户人群放大

之前的一个练习题：练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建（neo4j）提及了几种简单的推荐方式。但是在超大规模稀疏数据上，一般会采用一些规模化的模型，譬如spark-ALS就是其中一款。这边，笔者也是想调研一下这个模型的操作性，所有就先用单机版的测试一下；对应的spark.mlib有分布式的版本。练习代码可见：mattzheng/pyALS文章目录1 ALS算法 - Alternating Least Square - 交替最小二乘法1.1 理论介绍1.2 58同城的推荐场景实战2

2020-06-04 14:52:47 2623

原创网络表情NLP（二）︱特殊表情包+emoji识别

这是一篇一本正经无聊的小研究项目。。互联网现在面临很多新网络文体，比如弹幕文体、小红书的种草文体、网名等，这些超短文本中本身字符特征就比较少，但是表情包占比却很多，这是重要信息呀。之前参加比赛，一般都是当作停用词直接删掉，在这些超短文本中可就不行了。文章目录1 emoji表情识别几种特殊符号：颜文字，emoji，特殊标号.其中，emoji,特殊符号都是可以分词分开的，但是颜文字字数比较多，分词的时候会占着比较多的内容且不太好分1 emoji表情识别github：https://gi

2020-06-02 23:08:48 5050

原创网络表情NLP（一）︱颜文字表情实体识别、属性检测、新颜发现

这是一篇一本正经无聊的小研究项目。。互联网现在面临很多新网络文体，比如弹幕文体、小红书的种草文体、网名等，这些超短文本中本身字符特征就比较少，但是表情包占比却很多，这是重要信息呀。之前参加比赛，一般都是当作停用词直接删掉，在这些超短文本中可就不行了。文章目录1 混用的几个库1.1 模块一：rouge1.2 模块二：jieba_fast1.3 关键词查询组件：flashtext2 颜文字检测与识别2.1 颜文字检测2.2 颜文字实体分词3 新颜文字发现3.1 新颜文字发现3.2 颜文字属性识别

2020-06-02 22:27:26 3929

原创 docker︱docker run的解读与一键部署

这是之前的文章：docker︱在nvidia-docker中使用tensorflow-gpu/jupyter文章目录1 docker run的解读1.1 docker run1.2 几种进入容器的方式2 docker .sh形式启动2.1 常规报错2.2 常规写法步骤2.3 几个实践case3 docker打包成.rar一键部署3.1 docker 容器导出和导入(export / impo...

2020-04-14 11:57:42 989 1

原创 TensorFlow-Serving的使用实战案例笔记（tf=1.4）

最近在测试一些通用模型+项目，包括：CLUE（tf+pytorch），bert4keras(keras)， Kashgari(keras+tf)等。其中如果要部署的话，就有tensorflow-serving和flask的选择了。这里刚好有一个非常好的实战例子，基于tensorflow 1.x的，比较全面。文章目录1 安装 TensorFlow Serving2 keras-H5格式转变...

2020-03-16 17:33:17 5017 2

原创 nvidia-rapids︱cuGraph(NetworkX-like)关系图模型

RAPIDS cuGraph库是一组图形分析，用于处理GPU数据帧中的数据 - 请参阅cuDF。 cuGraph旨在提供类似NetworkX的API，这对数据科学家来说很熟悉，因此他们现在可以更轻松地构建GPU加速的工作流程官方文档：rapidsai/cugraphcuGraph API Reference支持的模型：文章目录1 安装与背景1.1 安装1.2 背景2 简单的demo3...

2020-02-25 21:56:02 3223

原创 nvidia-rapids︱cuML机器学习加速库

cuML是一套用于实现与其他RAPIDS项目共享兼容API的机器学习算法和数学原语函数。cuML使数据科学家、研究人员和软件工程师能够在GPU上运行传统的表格ML任务，而无需深入了解CUDA编程的细节。在大多数情况下，cuML的Python API与来自scikit-learn的API相匹配。对于大型数据集，这些基于GPU的实现可以比其CPU等效完成10-50倍。有关性能的详细信息，请参阅...

2020-02-25 21:38:59 9972 3

原创 nvidia-rapids︱cuDF与pandas一样的DataFrame库

cuDF（https://github.com/rapidsai/cudf）是一个基于Python的GPU DataFrame库，用于处理数据，包括加载、连接、聚合和过滤数据。向GPU的转移允许大规模的加速，因为GPU比CPU拥有更多的内核。笔者觉得，对于我来说一个比较好的使用场景是，代替并行，在pandas处理比较慢的时候，切换到cuDF，就不用写繁琐的并行了。官方文档：1 Docs »...

2020-02-25 21:12:29 14832 2

转载 NVIDIA的python-GPU算法生态︱ RAPIDS 0.10

随着新版本的推出，RAPIDS 迎来了其推出一周年纪念日。回顾所经历的一年，RAPIDS团队就社区对该项目的关心和支持表示衷心的感谢。此前，RAPIDS获得了其首个BOSSIE奖。非常感谢各位的支持！RAPIDS团队将继续推动端对端数据科学加快发展，达到新高度。文章目录RAPIDSRAPIDS定义rapids背景资料RAPIDS核心库更新cuDFcuML 和 XGBoost从cuML 训练到...

2020-02-25 19:55:30 3305

原创 statsmodels︱python常规统计模型库

之前看sklearn线性模型没有R方，F检验，回归系数T检验等指标，于是看到了statsmodels这个库，看着该库输出的结果真是够怀念的。。文章目录1 安装2 相关模型介绍2.1 线性模型2.2 离散选择模型(Discrete Choice Model, DCM)2.3 非参数统计2.4 广义线性模型 - Generalized Linear Models2.5 稳健回归——Robust R...

2020-02-18 10:37:11 18991

原创聚类 | Map-Equation多级网络聚类模型——InfoMap

受苏神的《最小熵原理（五）：“层层递进”之社区发现与聚类》启发，拿来做词聚类，看苏神的贴出来的效果蛮好，就上手试了试，感觉确实不错。最新的v1.0版本还有专门网站：https://mapequation.github.io/infomap/1 简单的理论Infomap 的双层编码方式把群组识别（社区发现）同信息编码联系到了一起。一个好的群组划分，可以带来更短的编码。所以，如果能量化编码长度...

2020-02-07 16:34:56 6971 4

原创微信对话开放平台智能对话模块的几个亮点

微信AI首席科学家牛成公布了最新开放方案，并重磅宣布全面开放各层次 NLP 能力。具体说来，微信 AI 迈出了“三大步”：以硬件合作为核心的智言小微硬件开放平台 2.0 正式亮相；公开以对话开放能力为核心的微信对话开放平台；全面开放以自然语言处理能力为核心的 NLP 基础技术平台。参考：微信9年：张小龙指明方向，微信AI全面开放NLP能力今天公开课上隆重介绍了...

2020-01-10 08:30:00 10912

原创电商智能写作：京东AI闪电智能写作引擎

京东也在电商智能写作领域做了非常多的工作，而且也与阿里妈妈创意中心一样，有试用界面，也接受API调用与商务合作。京东之前也有李白写作平台（在线：https://libai.jd.com/...

2020-01-06 09:13:56 1833

原创电商智能写作：阿里妈妈创意中心智能文案引擎

本篇为电商智能写作第一篇，笔者跟踪电商智能写作领域有些日子了，目前已知有成型电商智能写作产品的有：阿里的阿里妈妈（还有其他的几篇该领域的论文，不知道有木有做成产品使用起来），京东AI闪电，宝尊电商等。其中，又以阿里妈妈创意中心这个产品 + 技术 + 论文 + 代码 + 专利都齐全的，所以开篇来说。阿里妈妈一键生成电商营销文案这个是阿里妈妈创意中心，智能文案的试用界面，可以看到用户可以输入...

2019-12-29 22:44:29 9936 1

原创智能视频生成：阿里系的诸多成果

阿里因为特有的大平台流量，在各种智能内容生成上都涉足较多，而且公之于众的成果颇多。9月26日，阿里巴巴在杭州云栖大会上首次公布了人工智能调用规模：AI每天调用超1万亿次，服务全球10亿人，日处理图像10亿张、视频120万小时、语音55万小时及自然语言5千亿句，已经成为中国最大的人工智能公司。阿里还首次披露人工智能的完整布局，在AI芯片、AI云服务、AI算法、AI平台、产业AI的进展。阿里首...

2019-12-22 11:43:56 2273

原创 AI智能内容创作的几个方面

昨天刚好看到CSDN有要开通付费专栏（定价有点不合理啊），我就在想有啥好写。。刚好最近的研究方向就是KG +智能写作，而且大大小小的智能内容创作产品、技术也一直在关注，于是就想做个小小搬运匠，看看能不能把相关的内容整理、搬运一下。智能写作可能比较偏重文字创作，内容创作可能就更加宽泛了一些，不仅仅是文字，还有：图片、大热的视频、音乐等载体。现在对于内容创作的需求也是越来越大，很多个...

2019-12-19 08:42:00 2304

原创平民级NER︱pycrfsuite的介绍与应用

1 前言不知道哪篇文献中提及到了NER的几款最、最、最常见模型：从图中可以看到，其实CRF和BiLSTM-CRF效果差距不大，本身能省事儿就省事儿的原理，用简单的CPU就可以跑的，pycrfsuite非常符合。这个开源项目medical_ner_crfsuite已经说得蛮清楚了，而且代码+数据也开源了，笔者就不赘述了。除了pycrfsuite，还有sklearn_crfsuite也是同样...

2019-12-05 21:52:30 2926 2

原创【介绍】GNES ——"Pythonic"的直观方式快速构建神经搜索框架

来自腾讯AI Lab肖涵(肖涵博士，腾讯AI Lab GNES项目组负责人)大神的开源项目，非常赞:GNES Flow。GNES Flow让你通过“Pythonic”的直观方式快速构建神经搜索框架，将GNES架构中的各个微服务搭积木一样组织起来。它支持可视化，多进程/线程/DockerSwarm/K8s后台。GNESFlow和GNES的关系就如同Keras和Tensorflow一样，它为不熟...

2019-10-24 11:53:13 1249

原创 python | 关键词快速匹配检索小工具 pyahocorasick / ahocorapy

AC自动机是多模式匹配的一个经典数据结构，原理是和KMP一样的构造fail指针，不过AC自动机是在Trie树上构造的，但原理是一样的。官方github：https://github.com/WojciechMula/pyahocorasick/文章目录1 安装2 使用3 案例1 安装This module is written in C. You need a C compiler i...

2019-09-29 17:19:23 7301 1

原创 python | 高效统计语言模型kenlm：新词发现、分词、智能纠错

之前看到苏神【重新写了之前的新词发现算法：更快更好的新词发现】中提到了kenlm，之前也自己玩过，没在意，现在遇到一些大规模的文本问题，模块确实好用，前几天还遇到几个差点“弃疗”的坑，解决了之后，就想，不把kenlm搞明白，对不起我浪费的两天。。kenlm的优点（关于kenlm工具训练统计语言模型）：训练语言模型用的是传统的“统计+平滑”的方法，使用kenlm这个工具来训练。它快速，节省内存，...

2019-09-27 15:01:09 5974 5

原创 pyRedis - 操作指南:增/删/改/查、管道与发布订阅功能

文章目录1 redis docker 部署与安装2 py - redis的使用2.1 redis的连接2.2 常规属性查看2.3 STRING 字符串的操作1 redis docker 部署与安装参考：一文教你如何通过 Docker 快速搭建各种测试环境首先拉取 Redis 镜像, 这里我选择的是 redis:alpine 轻量级镜像版本：docker pull redis:alpine...

2019-08-19 22:42:33 2375 1

原创 pyMongo操作指南:增/删/改/查/合并/统计与数据处理

文章目录1 mongodb安装1.1 下载 MongoDB 镜像1.2 运行 MongoDB 镜像1.3 添加管理员账号1.4 用新创建的 root 账户连接，测试一下2 可视化界面Robo 3T3 pymongo增删改查3.1 数据库连接3.2 建表collection3.3 文档插入与删除关于Unicode编码的字符串注意点3.4 数据更新update3.5 数据替换replace3.6 查...

2019-08-15 17:22:02 8754

原创 PySpark︱pyspark.ml 相关模型实践

文章目录1 pyspark.ml MLP模型实践9 spark.ml模型评估 MulticlassClassificationEvaluator1 pyspark.ml MLP模型实践官方案例来源：https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.classification.Multilay...

2019-07-26 10:06:22 1993 2

原创 gensim-fast2vec改造、灵活使用大规模外部词向量（具备OOV查询能力）

本篇是继极简使用︱Gemsim-FastText 词向量训练以及OOV（out-of-word）问题有效解决之后，让之前的一些旧的"word2vec"具备一定的词表外查询功能。还有一个使用场景是很多开源出来的词向量很好用，但是很大，用gensim虽然可以直接用，如果能尽量节省一些内存且比较集中会更好，同时如果有一些OOV的功能就更好了，于是笔者就简单抛砖引玉的简单写了该模块。譬如以下这些大...

2019-05-31 11:46:38 2325

原创极简主义︱使用Turicreate进行快速图像分类迁移训练与预测（六）

apple开源机器学习框架turicreate内容非常广阔，本篇介绍冰山一角的图像相似，极简主义的代表！！！！github:https://apple.github.io/turicreate/docs/api/generated/turicreate.SFrame.html首篇博客：python︱apple开源机器学习框架turicreate中的SFrame——新形态pd.DataFrame...

2019-05-22 14:11:22 2047

转载中文文本纠错算法走到多远了？

纠错是从互联网起始时就在一直解决的问题，但是一直作为一些重要技术的辅助、附属功能而默默无闻，譬如搜索引擎、譬如火热的智能写作等。中文文本纠错任务，常见错误类型包括：谐音字词，如配副眼睛-配副眼镜混淆音字词，如流浪织女-牛郎织女字词顺序颠倒，如伍迪艾伦-艾伦伍迪字词补全，如爱有天意-假如爱有天意形似字错误，如高梁-高粱中文拼音全拼，如 xingfu-幸福中文拼音缩写，...

2019-02-01 11:30:41 29185 9

原创 keras-yolov3 + Kalman-Filter 进行人体多目标追踪（含代码）

keras-yolov3 + kalman filter进行目标检测detector+trackerdetector丢失目标我们目前detector为了求快用了yolo，但是one stage的算法目标丢失情况挺严重的.多帧融合可以考虑一下为了保持跟踪的快速性，所以，在检测车辆后，利用快速跟踪来代替车辆检测结果，中间涉及到毫米波雷达与车辆bbox匹配问题,匹配完成后，利用毫米波雷达的准...

2019-01-20 11:21:44 28527 76

原创自有数据集上,如何用keras最简单训练YOLOv3目标检测

qqwweee/keras-yolo3是最简单的自数据训练yolov3的开源项目了。非常简单，相比其他的开源项目，太适合新手练习yolov3。而公开的很多开源框架的都是基于VOC/COCO来写预训练，整理数据起麻烦不少。本来笔者看到mxnet/gluoncv有yolov3的自训练，而且Mxnet还进行一定改进把精度提升了不少，还欢欣鼓舞的去尝试，但是一旦遇到坑，基本没法解决。。社区人太少，搜不...

2019-01-02 14:20:03 16326 19

原创 python︱ collections模块（namedtuple/defaultdict/OrderedDict等） + 神奇排列组合函数

collections有的功能：['deque', 'defaultdict', 'namedtuple', 'UserDict', 'UserList', 'UserString',\ 'Counter', 'OrderedDict', 'ChainMap', 'Awaitable', 'Coroutine', 'AsyncIterable', \ 'AsyncIterator', 'A...

2018-11-27 11:06:01 2273

原创 Jupyter notebook最简原型界面设计 - ipywidgets与lineup_widget

Tkinter的GUI设计和 django页面设计，那么笔者只是想快速做个demo原型，以上的内容能不能结合着来，有一些简单的交互 + web可以快速访问的到，于是就看到了jupyter notebook这两个库，非常简单的玩具，来看看呗~文章目录一 ipywidgets1.1 基础组件1.2 interact 简单交互二 lineup_widget一 ipywidgets文档：htt...

2018-11-22 22:57:25 21719 2

原创基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索

（~免费广告位一则~）AI Lab开源大规模高质量中文词向量数据，800万中文词随你用，质量非常高，就是一个词向量.txt文件都有16G之多，太夸张了。。不过的确非常有特点：⒈ 覆盖率（Coverage）：该词向量数据包含很多现有公开的词向量数据所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例，利用腾讯AI Lab...

2018-11-12 22:22:58 10708 25

原创文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性

现实情况中，很多机器学习训练集会遇到样本不均衡的情况，应对的方案也有很多种。笔者把看到的一些内容进行简单罗列，此处还想分享的是交叉验证对不平衡数据训练极为重要。文章目录1 样本不平衡的解决思路1.2 将不平衡样本当作离群点1.2 欠采样/过采样1.3 训练策略的优化1.3.1 Focal_Loss1.3.2 class_weight1.4 不平衡评价指标：不要ROC，用Precision/R...

2018-11-01 14:24:26 9074

Rstudio Server + Docker + tensorflowR的dockerfile文件

Rstudio Server + Docker + tensorflowR - 云端使用R语言与GPU深度学习

2018-09-28

数美科技李田：机器学习与在数美业务上的落地

数美科技李田：机器学习与在数美业务上的落地

2018-09-11

Prophet的案例数据

R的Prophet包的数据集

2017-02-26

VMware-player-12.0.0-part1

VMware-player-12.0.0-part1，一共两个部分。

2016-11-19

word2vec自编译函数（By Jian Li,2014-09-21）

R语言实现深度学习word2vec，word2vec包含两个模型CBOW以及Skp-gram模型，R语言实现的过程中需要配置一些内容，详情见包中附件readme。

2016-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除