自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

素质云笔记/Recorder...

Research Area:计算广告+内容生成中台

  • 博客(338)
  • 资源 (5)
  • 论坛 (2)
  • 收藏
  • 关注

原创 极简使用︱Gensim-FastText 词向量训练以及OOV(out-of-word)问题有效解决

glove/word2vec/fasttext目前词向量比较通用的三种方式,之前三款词向量的原始训练过程还是挺繁琐的,这边笔者列举一下再自己使用过程中快速训练的方式。其中,word2vec可见:python︱gensim训练word2vec及相关函数与功能理解glove可见:极简使用︱Glove-python词向量训练与使用因为是在gensim之中的,需要安装fasttext,可见:htt...

2018-10-13 19:37:17 27678 8

原创 练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建(neo4j)

DouBanRecommend基于豆瓣图书的推荐、知识图谱与知识引擎简单构建neo4j本项目主要贡献源来自豆瓣爬虫(数据源)lanbing510/DouBanSpider、知识图谱引擎Agriculture_KnowledgeGraph、apple.turicreate中内嵌的推荐算法。 主要拿来做练习,数据来源可见lanbing510/DouBanSpider。练习内容:豆瓣...

2018-04-24 18:57:44 2363 3

原创 R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)

经统专业看到预测的packages都是很眼馋的。除了之前的forecast包,现在这个prophet功能也很强大。本packages是由机器之心报道之后,抽空在周末试玩几小时。一些基本介绍可见机器之心的《业界 | Facebook开源大规模预测工具Prophet:支持Python和R》 并不喜欢理论分析,能直接上案例的,一般不码字,力求简单粗暴!!官网网址:https...

2017-02-26 20:53:05 16969 5

原创 cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)

在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。CIPS2016 中文信息处理报告《第五章 语言表示与深度学习研究进展、现状及趋势》第三节 技术方法和研

2017-02-05 19:06:55 12239 7

原创 迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe(only CPU)

说起来这门技术大多是秀的成分高于实际,但是呢,其也可以作为图像增强的工具,看到一些比赛拿他作训练集扩充,还是一个比较好的思路。如何在caffe上面实现简单的风格转化呢?好像网上的博文都没有说清楚,而且笔者也没有GPU机器,于是乎,走上了漫漫的研究逼死自己之路...作者实践机器配置:服务器:ubuntu16.04(8 core)+caffe+only CPU一、图像风格迁移:image style

2017-01-02 14:41:27 8920 10

原创 python定时模块:apscheduler

开个头,有参考:python定时任务最强框架APScheduler详细教程安装:pip install apscheduler一个案例其中 BlockingScheduler是阻塞性的调度器,是最基本的调度器,下面调用 start方法就会阻塞当前进程,所以如果你的程序除了调度进程没有其他后台进程,那么是可以是否的,否则这个调度器会阻塞你程序的正常执行。接下来就是定义一个 my_clock函数,这个函数就是需要定时调度的任务代码。然后就是实例化一个 BlockingScheduler对象,并

2020-11-25 17:28:45 23

原创 百度AI -智能地址识别 接口使用

百度最近推出了地址识别,不过python SDK没有更新,只能用请求的方式。不过,从效果来看,不能返回具体的经纬度,对后续的分析只是文本拆散 + 归类,解析省市区;可能还不如直接用地图API的地理编码,来的更直接代码地址:https://github.com/mattzheng/Baidu-AIP-Address其中,自己需要在百度后台拿到。APP_ID = 'xxxxxx'API_KEY = 'xxxxxx'SECRET_KEY = ''使用:ad = address_detect.

2020-10-09 11:56:25 263

原创 推荐 | 微软SAR近邻协同过滤算法相关问题(三)

遇到的问题贴…持续追加…参考相关帖:推荐 | 微软SAR近邻协同过滤算法解析(一)推荐 | 微软SAR近邻协同过滤算法拆解(二)练习题︱ python 协同过滤ALS模型实现:商品推荐 + 用户人群放大1 问题一:模型预测之后Prediction一直为0模型预测之后Prediction一直为0,同时发现model.item_similarity对角阵只有1,如下:array([[1, 0, 0, ..., 0, 0, 0], [0, 1, 0, ..., 0, 0, 0],.

2020-09-10 18:08:56 104

原创 推荐 | 微软SAR近邻协同过滤算法拆解(二)

推荐 | 微软SAR近邻协同过滤算法解析(一)前面这篇介绍了整个SAR算法,算法本身比较容易理解。本篇主要对一下里面有趣的小函数。文章目录1 对角方阵求jaccard / lift2 矩阵取top-k函数3 sparse稀疏矩阵构造4 一些评价指标:NDCG、MAP、MRR、HR、ILS、ROC、AUC、F1等4.1 Hit Ratio(HR)4.2 Mean Average Precision(MAP)1 对角方阵求jaccard / lift这个发生在CCC矩阵co-occurence mat

2020-09-09 14:29:26 1359

原创 推荐 | 微软SAR近邻协同过滤算法解析(一)

SAR是一种快速,可扩展的自适应算法,可根据用户交易历史记录提供个性化推荐.它通过理解项目之间的相似性来推动,并向用户具有现有亲和力的项目推荐类似项目.SAR is a fast scalable adaptive algorithm for personalized recommendations based on user transaction history and items description. The core idea behind SAR is to recommend it.

2020-09-08 19:09:19 345

原创 scipy.sparse、pandas.sparse、sklearn稀疏矩阵的使用

单机环境下,如果特征较为稀疏且矩阵较大,那么就会出现内存问题,如果不上分布式 + 不用Mars/Dask/CuPy等工具,那么稀疏矩阵就是一条比较容易实现的路。文章目录1 scipy.sparse1.1 SciPy 几种稀疏矩阵类型1.2 lil_matrix1.3 矩阵的通用属性1.4 稀疏矩阵存取2 pandas.sparse2.1 SparseArray2.2 新建SparseDataFrame2.3 格式转化2.4 稀疏矩阵的属性2.5 scipy.sparse与pandas.sparse3 s

2020-09-03 16:41:08 405

转载 Python使用sftp实现上传和下载功能(实例代码)

参考:Python—实现sftp客户端(连接远程服务器)import paramiko transport = paramiko.Transport(("106.15.88.182", 10022)) # 获取Transport实例transport.connect(username="root", password="123456") # 建立连接 # 创建sftp对象,SFTPClient是定义怎么传输文件、怎么交互文件sftp = paramiko.SFTPClient.fr

2020-08-07 19:13:18 374 1

原创 sklearn中多种编码方式——category_encoders

离散型编码的Python库,里面封装了十几种(包括文中的所有方法)对于离散型特征的编码方法,接口接近于Sklearn通用接口,非常实用可以使用多种不同的编码技术把类别变量转换为数值型变量,并且符合sklearn模式的转换。官方github:https://github.com/scikit-learn-contrib/category_encoders官方文档:http://contrib.scikit-learn.org/category_encoders/#这个库的作者将类别编码分为两类,无

2020-08-06 22:50:50 1648

原创 python - 机器学习lightgbm相关实践

相关文章:R+python︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读python︱sklearn一些小技巧的记录(训练集划分/pipelline/交叉验证等)GBDT一个藤上,进化的xgb以及lgb。比较好的几则练习代码:QLMX/data_mining_modelsAnfany/Machine-Learning-for-Beginner-by-Python3文章目录0 相关理论0.1 内存更小0.2 速度更快0.3 直接支持类别特征

2020-08-06 18:58:14 212

原创 linux ubuntu系统安装dotnet / Azcopy

如果有小伙伴使用微软的blob进行文件管理的话,可能会用到。文章目录一 centos安装1 安装.net core 1.1.1版本2 安装azcopy3 一些报错3.1 但是dotnet版本不够3.2 libunwind/libicu一直安装不上4 其他系统azcopy安装5 python操作blob二 azcopy使用1 使用 AzCopy 和 Blob 存储传输数据一 centos安装之前在centos参考的是:CentOS 7安装Azcopy1 安装.net core 1.1.1版本.n

2020-08-03 22:19:58 221

原创 练习题︱ python 协同过滤ALS模型实现:商品推荐 + 用户人群放大

之前的一个练习题:练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建(neo4j)提及了几种简单的推荐方式。但是在超大规模稀疏数据上,一般会采用一些规模化的模型,譬如spark-ALS就是其中一款。这边,笔者也是想调研一下这个模型的操作性,所有就先用单机版的测试一下;对应的spark.mlib有分布式的版本。练习代码可见:mattzheng/pyALS文章目录1 ALS算法 - Alternating Least Square - 交替最小二乘法1.1 理论介绍1.2 58同城的推荐场景实战2

2020-06-04 14:52:47 508

原创 网络表情NLP(二)︱特殊表情包+emoji识别

这是一篇一本正经无聊的小研究项目。。互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。文章目录1 emoji表情识别几种特殊符号:颜文字,emoji,特殊标号.其中,emoji,特殊符号都是可以分词分开的,但是颜文字字数比较多,分词的时候会占着比较多的内容且不太好分1 emoji表情识别github:https://gi

2020-06-02 23:08:48 1006

原创 网络表情NLP(一)︱颜文字表情实体识别、属性检测、新颜发现

这是一篇一本正经无聊的小研究项目。。互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。文章目录1 混用的几个库1.1 模块一:rouge1.2 模块二:jieba_fast1.3 关键词查询组件:flashtext2 颜文字检测与识别2.1 颜文字检测2.2 颜文字实体分词3 新颜文字发现3.1 新颜文字发现3.2 颜文字属性识别

2020-06-02 22:27:26 939

原创 docker︱docker run的解读与一键部署

这是之前的文章:docker︱在nvidia-docker中使用tensorflow-gpu/jupyter文章目录1 docker run的解读1.1 docker run1.2 几种进入容器的方式2 docker .sh形式启动2.1 常规报错2.2 常规写法步骤2.3 几个实践case3 docker打包成.rar一键部署3.1 docker 容器导出和导入(export / impo...

2020-04-14 11:57:42 416 1

原创 TensorFlow-Serving的使用实战案例笔记(tf=1.4)

最近在测试一些通用模型+项目,包括:CLUE(tf+pytorch),bert4keras(keras), Kashgari(keras+tf)等。其中如果要部署的话,就有tensorflow-serving和flask的选择了。这里刚好有一个非常好的实战例子,基于tensorflow 1.x的,比较全面。文章目录1 安装 TensorFlow Serving2 keras-H5格式转变...

2020-03-16 17:33:17 1829

原创 nvidia-rapids︱cuGraph(NetworkX-like)关系图模型

RAPIDS cuGraph库是一组图形分析,用于处理GPU数据帧中的数据 - 请参阅cuDF。 cuGraph旨在提供类似NetworkX的API,这对数据科学家来说很熟悉,因此他们现在可以更轻松地构建GPU加速的工作流程官方文档:rapidsai/cugraphcuGraph API Reference支持的模型:文章目录1 安装与背景1.1 安装1.2 背景2 简单的demo3...

2020-02-25 21:56:02 1037

原创 nvidia-rapids︱cuML机器学习加速库

cuML是一套用于实现与其他RAPIDS项目共享兼容API的机器学习算法和数学原语函数。cuML使数据科学家、研究人员和软件工程师能够在GPU上运行传统的表格ML任务,而无需深入了解CUDA编程的细节。 在大多数情况下,cuML的Python API与来自scikit-learn的API相匹配。对于大型数据集,这些基于GPU的实现可以比其CPU等效完成10-50倍。 有关性能的详细信息,请参阅...

2020-02-25 21:38:59 1963

原创 nvidia-rapids︱cuDF与pandas一样的DataFrame库

cuDF(https://github.com/rapidsai/cudf)是一个基于Python的GPU DataFrame库,用于处理数据,包括加载、连接、聚合和过滤数据。向GPU的转移允许大规模的加速,因为GPU比CPU拥有更多的内核。笔者觉得,对于我来说一个比较好的使用场景是,代替并行,在pandas处理比较慢的时候,切换到cuDF,就不用写繁琐的并行了。官方文档:1 Docs »...

2020-02-25 21:12:29 3004

转载 NVIDIA的python-GPU算法生态 ︱ RAPIDS 0.10

随着新版本的推出,RAPIDS 迎来了其推出一周年纪念日。回顾所经历的一年,RAPIDS团队就社区对该项目的关心和支持表示衷心的感谢。此前,RAPIDS获得了其首个BOSSIE奖。非常感谢各位的支持!RAPIDS团队将继续推动端对端数据科学加快发展,达到新高度。文章目录RAPIDSRAPIDS定义rapids背景资料RAPIDS核心库更新cuDFcuML 和 XGBoost从cuML 训练到...

2020-02-25 19:55:30 1000

原创 statsmodels︱python常规统计模型库

之前看sklearn线性模型没有R方,F检验,回归系数T检验等指标,于是看到了statsmodels这个库,看着该库输出的结果真是够怀念的。。文章目录1 安装2 相关模型介绍2.1 线性模型2.2 离散选择模型(Discrete Choice Model, DCM)2.3 非参数统计2.4 广义线性模型 - Generalized Linear Models2.5 稳健回归——Robust R...

2020-02-18 10:37:11 4962

原创 聚类 | Map-Equation多级网络聚类模型——InfoMap

受苏神的《最小熵原理(五):“层层递进”之社区发现与聚类》启发,拿来做词聚类,看苏神的贴出来的效果蛮好,就上手试了试,感觉确实不错。最新的v1.0版本还有专门网站:https://mapequation.github.io/infomap/1 简单的理论Infomap 的双层编码方式把群组识别(社区发现)同信息编码联系到了一起。一个好的群组划分,可以带来更短的编码。所以,如果能量化编码长度...

2020-02-07 16:34:56 1801 1

原创 微信对话开放平台智能对话模块的几个亮点

微信AI首席科学家牛成公布了最新开放方案,并重磅宣布全面开放各层次 NLP 能力。具体说来,微信 AI 迈出了“三大步”:以硬件合作为核心的智言小微硬件开放平台 2.0 正式亮相; 公开以对话开放能力为核心的微信对话开放平台; 全面开放以自然语言处理能力为核心的 NLP 基础技术平台。参考:微信9年:张小龙指明方向,微信AI全面开放NLP能力今天公开课上隆重介绍了...

2020-01-10 08:30:00 5815

原创 电商智能写作:京东AI闪电智能写作引擎

京东也在电商智能写作领域做了非常多的工作,而且也与阿里妈妈创意中心一样,有试用界面,也接受API调用与商务合作。京东之前也有李白写作平台(在线:https://libai.jd.com/...

2020-01-06 09:13:56 758

原创 电商智能写作:阿里妈妈创意中心智能文案引擎

本篇为电商智能写作第一篇,笔者跟踪电商智能写作领域有些日子了,目前已知有成型电商智能写作产品的有:阿里的阿里妈妈(还有其他的几篇该领域的论文,不知道有木有做成产品使用起来),京东AI闪电,宝尊电商等。其中,又以阿里妈妈创意中心这个产品 + 技术 + 论文 + 代码 + 专利都齐全的,所以开篇来说。阿里妈妈一键生成电商营销文案这个是阿里妈妈创意中心,智能文案的试用界面,可以看到用户可以输入...

2019-12-29 22:44:29 4856 1

原创 智能视频生成:阿里系的诸多成果

阿里因为特有的大平台流量,在各种智能内容生成上都涉足较多,而且公之于众的成果颇多。9月26日,阿里巴巴在杭州云栖大会上首次公布了人工智能调用规模:AI每天调用超1万亿次,服务全球10亿人,日处理图像10亿张、视频120万小时、语音55万小时及自然语言5千亿句,已经成为中国最大的人工智能公司。阿里还首次披露人工智能的完整布局,在AI芯片、AI云服务、AI算法、AI平台、产业AI的进展。阿里首...

2019-12-22 11:43:56 973

原创 AI智能内容创作的几个方面

昨天刚好看到CSDN有要开通付费专栏(定价有点不合理啊),我就在想有啥好写。。刚好最近的研究方向就是KG +智能写作,而且大大小小的智能内容创作产品、技术也一直在关注,于是就想做个小小搬运匠,看看能不能把相关的内容整理、搬运一下。智能写作可能比较偏重文字创作,内容创作可能就更加宽泛了一些,不仅仅是文字,还有:图片、大热的视频、音乐等载体。现在对于内容创作的需求也是越来越大,很多个...

2019-12-19 08:42:00 749

原创 平民级NER︱pycrfsuite的介绍与应用

1 前言不知道哪篇文献中提及到了NER的几款最、最、最常见模型:从图中可以看到,其实CRF和BiLSTM-CRF效果差距不大,本身能省事儿就省事儿的原理,用简单的CPU就可以跑的,pycrfsuite非常符合。这个开源项目medical_ner_crfsuite已经说得蛮清楚了,而且代码+数据也开源了,笔者就不赘述了。除了pycrfsuite,还有sklearn_crfsuite也是同样...

2019-12-05 21:52:30 893 2

原创 【介绍】GNES ——"Pythonic"的直观方式快速构建神经搜索框架

来自腾讯AI Lab肖涵(肖涵博士,腾讯AI Lab GNES项目组负责人)大神的开源项目,非常赞:GNES Flow。GNES Flow让你通过“Pythonic”的直观方式快速构建神经搜索框架,将GNES架构中的各个微服务搭积木一样组织起来。它支持可视化,多进程/线程/DockerSwarm/K8s后台。GNESFlow和GNES的关系就如同Keras和Tensorflow一样,它为不熟...

2019-10-24 11:53:13 687

原创 python | 关键词快速匹配检索小工具 pyahocorasick / ahocorapy

AC自动机是多模式匹配的一个经典数据结构,原理是和KMP一样的构造fail指针,不过AC自动机是在Trie树上构造的,但原理是一样的。官方github:https://github.com/WojciechMula/pyahocorasick/文章目录1 安装2 使用3 案例1 安装This module is written in C. You need a C compiler i...

2019-09-29 17:19:23 3193 1

原创 python | 高效统计语言模型kenlm:新词发现、分词、智能纠错

之前看到苏神【重新写了之前的新词发现算法:更快更好的新词发现】中提到了kenlm,之前也自己玩过,没在意,现在遇到一些大规模的文本问题,模块确实好用,前几天还遇到几个差点“弃疗”的坑,解决了之后,就想,不把kenlm搞明白,对不起我浪费的两天。。kenlm的优点(关于kenlm工具训练统计语言模型):训练语言模型用的是传统的“统计+平滑”的方法,使用kenlm这个工具来训练。它快速,节省内存,...

2019-09-27 15:01:09 2787 4

原创 pyRedis - 操作指南:增/删/改/查、管道与发布订阅功能

文章目录1 redis docker 部署与安装2 py - redis的使用2.1 redis的连接2.2 常规属性查看2.3 STRING 字符串的操作1 redis docker 部署与安装参考:一文教你如何通过 Docker 快速搭建各种测试环境首先拉取 Redis 镜像, 这里我选择的是 redis:alpine 轻量级镜像版本:docker pull redis:alpine...

2019-08-19 22:42:33 993 1

原创 pyMongo操作指南:增/删/改/查/合并/统计与数据处理

文章目录1 mongodb安装1.1 下载 MongoDB 镜像1.2 运行 MongoDB 镜像1.3 添加管理员账号1.4 用新创建的 root 账户连接,测试一下2 可视化界面Robo 3T3 pymongo增删改查3.1 数据库连接3.2 建表collection3.3 文档插入与删除关于Unicode编码的字符串注意点3.4 数据更新update3.5 数据替换replace3.6 查...

2019-08-15 17:22:02 2499

原创 PySpark︱pyspark.ml 相关模型实践

文章目录1 pyspark.ml MLP模型实践9 spark.ml模型评估 MulticlassClassificationEvaluator1 pyspark.ml MLP模型实践官方案例来源:https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.classification.Multilay...

2019-07-26 10:06:22 621

原创 gensim-fast2vec改造、灵活使用大规模外部词向量(具备OOV查询能力)

本篇是继 极简使用︱Gemsim-FastText 词向量训练以及OOV(out-of-word)问题有效解决 之后,让之前的一些旧的"word2vec"具备一定的词表外查询功能。还有一个使用场景是很多开源出来的词向量很好用,但是很大,用gensim虽然可以直接用,如果能尽量节省一些内存且比较集中会更好,同时如果有一些OOV的功能就更好了,于是笔者就简单抛砖引玉的简单写了该模块。譬如以下这些大...

2019-05-31 11:46:38 1448

原创 极简主义︱使用Turicreate进行快速图像分类迁移训练与预测(六)

apple开源机器学习框架turicreate内容非常广阔,本篇介绍冰山一角的图像相似,极简主义的代表!!!!github:https://apple.github.io/turicreate/docs/api/generated/turicreate.SFrame.html首篇博客:python︱apple开源机器学习框架turicreate中的SFrame——新形态pd.DataFrame...

2019-05-22 14:11:22 1300

Rstudio Server + Docker + tensorflowR的dockerfile文件

Rstudio Server + Docker + tensorflowR - 云端使用R语言与GPU深度学习

2018-09-28

数美科技李田:机器学习与在数美业务上的落地

数美科技李田:机器学习与在数美业务上的落地

2018-09-11

Prophet的案例数据

R的Prophet包的数据集

2017-02-26

VMware-player-12.0.0-part1

VMware-player-12.0.0-part1,一共两个部分。

2016-11-19

word2vec自编译函数(By Jian Li,2014-09-21)

R语言实现深度学习word2vec,word2vec包含两个模型CBOW以及Skp-gram模型,R语言实现的过程中需要配置一些内容,详情见包中附件readme。

2016-05-07

悟乙己的留言板

发表于 2020-01-02 最后回复 2020-03-09

复制后,还带一串字,版权意识跟知乎学的不伦不类,CSDN长点心呀!!

发表于 2018-09-25 最后回复 2018-10-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除