自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

素质云笔记/Recorder...

Research Area:计算广告+内容生成中台

原创 极简使用︱Gensim-FastText 词向量训练以及OOV(out-of-word)问题有效解决

glove/word2vec/fasttext目前词向量比较通用的三种方式,之前三款词向量的原始训练过程还是挺繁琐的,这边笔者列举一下再自己使用过程中快速训练的方式。 其中,word2vec可见:python︱gensim训练word2vec及相关函数与功能理解 glove可见:极简使用︱Gl...

2018-10-13 19:37:17 21132 8

原创 练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建(neo4j)

DouBanRecommend 基于豆瓣图书的推荐、知识图谱与知识引擎简单构建neo4j 本项目主要贡献源来自豆瓣爬虫(数据源)lanbing510/DouBanSpider、知识图谱引擎Agriculture_KnowledgeGraph、apple.turicreate中内嵌的推荐算法。 ...

2018-04-24 18:57:44 2076 3

原创 R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)

经统专业看到预测的packages都是很眼馋的。除了之前的forecast包,现在这个prophet功能也很强大。本packages是由机器之心报道之后,抽空在周末试玩几小时。一些基本介绍可见机器之心的《业界 | Facebook开源大规模预测工具Prophet:支持Python...

2017-02-26 20:53:05 15343 5

原创 cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)

在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。 C...

2017-02-05 19:06:55 11639 7

原创 迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe(only CPU)

说起来这门技术大多是秀的成分高于实际,但是呢,其也可以作为图像增强的工具,看到一些比赛拿他作训练集扩充,还是一个比较好的思路。如何在caffe上面实现简单的风格转化呢?好像网上的博文都没有说清楚,而且笔者也没有GPU机器,于是乎,走上了漫漫的研究逼死自己之路...作者实践机器配置:服务器:ubun...

2017-01-02 14:41:27 8703 10

原创 网络表情NLP(二)︱特殊表情包+emoji识别

这是一篇一本正经无聊的小研究项目。。 互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。 之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。 文章目录1 emoji表情识别 几...

2020-06-02 23:08:48 16 0

原创 网络表情NLP(一)︱颜文字表情实体识别、属性检测、新颜发现

这是一篇一本正经无聊的小研究项目。。 互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。 之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。 文章目录1 混用的几个库1.1 模块...

2020-06-02 22:27:26 47 0

原创 docker︱docker run的解读与一键部署

这是之前的文章: docker︱在nvidia-docker中使用tensorflow-gpu/jupyter 文章目录1 docker run的解读1.1 docker run1.2 几种进入容器的方式2 docker .sh形式启动2.1 常规报错2.2 常规写法步骤2.3 几个实践case...

2020-04-14 11:57:42 130 0

原创 TensorFlow-Serving的使用实战案例笔记(tf=1.4)

最近在测试一些通用模型+项目,包括:CLUE(tf+pytorch),bert4keras(keras), Kashgari(keras+tf)等。其中如果要部署的话,就有tensorflow-serving和flask的选择了。 这里刚好有一个非常好的实战例子,基于tensorflow 1.x的...

2020-03-16 17:33:17 664 0

原创 nvidia-rapids︱cuGraph(NetworkX-like)关系图模型

RAPIDS cuGraph库是一组图形分析,用于处理GPU数据帧中的数据 - 请参阅cuDF。 cuGraph旨在提供类似NetworkX的API,这对数据科学家来说很熟悉,因此他们现在可以更轻松地构建GPU加速的工作流程 官方文档: rapidsai/cugraph cuGraph API R...

2020-02-25 21:56:02 655 0

原创 nvidia-rapids︱cuML机器学习加速库

cuML是一套用于实现与其他RAPIDS项目共享兼容API的机器学习算法和数学原语函数。 cuML使数据科学家、研究人员和软件工程师能够在GPU上运行传统的表格ML任务,而无需深入了解CUDA编程的细节。 在大多数情况下,cuML的Python API与来自scikit-learn的API相匹配。...

2020-02-25 21:38:59 790 0

原创 nvidia-rapids︱cuDF与pandas一样的DataFrame库

cuDF(https://github.com/rapidsai/cudf)是一个基于Python的GPU DataFrame库,用于处理数据,包括加载、连接、聚合和过滤数据。向GPU的转移允许大规模的加速,因为GPU比CPU拥有更多的内核。 笔者觉得,对于我来说一个比较好的使用场景是,代替并行,...

2020-02-25 21:12:29 1088 0

转载 NVIDIA的python-GPU算法生态 ︱ RAPIDS 0.10

随着新版本的推出,RAPIDS 迎来了其推出一周年纪念日。回顾所经历的一年,RAPIDS团队就社区对该项目的关心和支持表示衷心的感谢。此前,RAPIDS获得了其首个BOSSIE奖。非常感谢各位的支持!RAPIDS团队将继续推动端对端数据科学加快发展,达到新高度。 文章目录RAPIDSRAPID...

2020-02-25 19:55:30 434 0

原创 statsmodels︱python常规统计模型库

之前看sklearn线性模型没有R方,F检验,回归系数T检验等指标,于是看到了statsmodels这个库,看着该库输出的结果真是够怀念的。。 文章目录1 安装2 相关模型介绍2.1 线性模型2.2 离散选择模型(Discrete Choice Model, DCM)2.3 非参数统计2.4 广...

2020-02-18 10:37:11 1462 0

原创 聚类 | Map-Equation多级网络聚类模型——InfoMap

受苏神的《最小熵原理(五):“层层递进”之社区发现与聚类》启发,拿来做词聚类,看苏神的贴出来的效果蛮好,就上手试了试,感觉确实不错。 最新的v1.0版本还有专门网站:https://mapequation.github.io/infomap/ 1 简单的理论 Infomap 的双层编码方式把群组...

2020-02-07 16:34:56 893 0

原创 微信对话开放平台智能对话模块的几个亮点

微信AI首席科学家牛成公布了最新开放方案,并重磅宣布全面开放各层次 NLP 能力。具体说来,微信 AI 迈出了“三大步”: 以硬件合作为核心的智言小微硬件开放平台 2.0 正式亮相; 公开以对话开放能力为核心的微信对话开放平台; 全面开放以自然语言处理能力为核心的 NLP 基础技术平台。...

2020-01-10 08:30:00 3308 0

原创 电商智能写作:京东AI闪电智能写作引擎

京东也在电商智能写作领域做了非常多的工作,而且也与阿里妈妈创意中心一样,有试用界面,也接受API调用与商务合作。京东之前也有李白写作平台(在线:https://libai.jd.com/...

2020-01-06 09:13:56 355 0

原创 电商智能写作:阿里妈妈创意中心智能文案引擎

本篇为电商智能写作第一篇,笔者跟踪电商智能写作领域有些日子了,目前已知有成型电商智能写作产品的有: 阿里的阿里妈妈(还有其他的几篇该领域的论文,不知道有木有做成产品使用起来),京东AI闪电,宝尊电商等。 其中,又以阿里妈妈创意中心这个产品 + 技术 + 论文 + 代码 + 专利都齐全的,所以开篇来...

2019-12-29 22:44:29 1311 0

原创 智能视频生成:阿里系的诸多成果

阿里因为特有的大平台流量,在各种智能内容生成上都涉足较多,而且公之于众的成果颇多。 9月26日,阿里巴巴在杭州云栖大会上首次公布了人工智能调用规模:AI每天调用超1万亿次,服务全球10亿人,日处理图像10亿张、视频120万小时、语音55万小时及自然语言5千亿句,已经成为中国最大的人工智能公司。 阿...

2019-12-22 11:43:56 595 0

原创 AI智能内容创作的几个方面

昨天刚好看到CSDN有要开通付费专栏(定价有点不合理啊),我就在想有啥好写。。 刚好最近的研究方向就是KG +智能写作,而且大大小小的智能内容创作产品、技术也一直在关注,于是就想做个小小搬运匠,看看能不能把相关的内容整理、搬运一下。 智能写作可能比较偏重文字创作,内容创作可能就更加宽泛了一些,...

2019-12-19 08:42:00 403 0

原创 平民级NER︱pycrfsuite的介绍与应用

1 前言 不知道哪篇文献中提及到了NER的几款最、最、最常见模型: 从图中可以看到,其实CRF和BiLSTM-CRF效果差距不大,本身能省事儿就省事儿的原理,用简单的CPU就可以跑的,pycrfsuite非常符合。 这个开源项目medical_ner_crfsuite已经说得蛮清楚了,而...

2019-12-05 21:52:30 357 2

原创 【介绍】GNES ——"Pythonic"的直观方式快速构建神经搜索框架

来自腾讯AI Lab肖涵(肖涵博士,腾讯AI Lab GNES项目组负责人)大神的开源项目,非常赞: GNES Flow。GNES Flow让你通过“Pythonic”的直观方式快速构建神经搜索框架,将GNES架构中的各个微服务搭积木一样组织起来。它支持可视化,多进程/线程/DockerSwar...

2019-10-24 11:53:13 397 0

原创 python | 关键词快速匹配检索小工具 pyahocorasick / ahocorapy

AC自动机是多模式匹配的一个经典数据结构,原理是和KMP一样的构造fail指针,不过AC自动机是在Trie树上构造的,但原理是一样的。官方github: https://github.com/WojciechMula/pyahocorasick/ 文章目录1 安装2 使用3 案例 1...

2019-09-29 17:19:23 1670 0

原创 python | 高效统计语言模型kenlm:新词发现、分词、智能纠错

之前看到苏神【重新写了之前的新词发现算法:更快更好的新词发现】中提到了kenlm,之前也自己玩过,没在意,现在遇到一些大规模的文本问题,模块确实好用,前几天还遇到几个差点“弃疗”的坑,解决了之后,就想,不把kenlm搞明白,对不起我浪费的两天。。 kenlm的优点(关于kenlm工具训练统计语言...

2019-09-27 15:01:09 1697 4

原创 pyRedis - 操作指南:增/删/改/查、管道与发布订阅功能

文章目录1 redis docker 部署与安装2 py - redis的使用2.1 redis的连接2.2 常规属性查看2.3 STRING 字符串的操作 1 redis docker 部署与安装 参考:一文教你如何通过 Docker 快速搭建各种测试环境 首先拉取 Redis 镜像,...

2019-08-19 22:42:33 522 1

原创 pyMongo操作指南:增/删/改/查/合并/统计与数据处理

文章目录1 mongodb安装1.1 下载 MongoDB 镜像1.2 运行 MongoDB 镜像1.3 添加管理员账号1.4 用新创建的 root 账户连接,测试一下2 可视化界面Robo 3T3 pymongo增删改查3.1 数据库连接3.2 建表collection3.3 文档插入与删除关于...

2019-08-15 17:22:02 1232 0

原创 PySpark︱pyspark.ml 相关模型实践

文章目录1 pyspark.ml MLP模型实践9 spark.ml模型评估 MulticlassClassificationEvaluator 1 pyspark.ml MLP模型实践 官方案例来源:https://spark.apache.org/docs/latest/api/python...

2019-07-26 10:06:22 298 0

原创 gensim-fast2vec改造、灵活使用大规模外部词向量(具备OOV查询能力)

本篇是继 极简使用︱Gemsim-FastText 词向量训练以及OOV(out-of-word)问题有效解决 之后,让之前的一些旧的"word2vec"具备一定的词表外查询功能。 还有一个使用场景是很多开源出来的词向量很好用,但是很大,用gensim虽然可以直接用,如果能尽量...

2019-05-31 11:46:38 1020 0

原创 极简主义︱使用Turicreate进行快速图像分类迁移训练与预测(六)

apple开源机器学习框架turicreate内容非常广阔,本篇介绍冰山一角的图像相似,极简主义的代表!!!! github:https://apple.github.io/turicreate/docs/api/generated/turicreate.SFrame.html 首篇博客:pyth...

2019-05-22 14:11:22 849 0

转载 中文文本纠错算法走到多远了?

纠错是从互联网起始时就在一直解决的问题,但是一直作为一些重要技术的辅助、附属功能而默默无闻,譬如搜索引擎、譬如火热的智能写作等。 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱...

2019-02-01 11:30:41 12319 5

原创 keras-yolov3 + Kalman-Filter 进行人体多目标追踪(含代码)

keras-yolov3 + kalman filter进行目标检测 detector+tracker detector丢失目标 我们目前detector为了求快用了yolo,但是one stage的算法目标丢失情况挺严重的. 多帧融合可以考虑一下 为了保持跟踪的快速性,所以,在检测车辆...

2019-01-20 11:21:44 14811 63

原创 自有数据集上,如何用keras最简单训练YOLOv3目标检测

qqwweee/keras-yolo3是最简单的自数据训练yolov3的开源项目了。非常简单,相比其他的开源项目,太适合新手练习yolov3。 而公开的很多开源框架的都是基于VOC/COCO来写预训练,整理数据起麻烦不少。 本来笔者看到mxnet/gluoncv有yolov3的自训练,而且Mxne...

2019-01-02 14:20:03 10188 17

原创 python︱ collections模块(namedtuple/defaultdict/OrderedDict等)

collections有的功能: ['deque', 'defaultdict', 'namedtuple', 'UserDict', 'UserList', 'UserString&...

2018-11-27 11:06:01 677 0

原创 Jupyter notebook最简原型界面设计 - ipywidgets与lineup_widget

Tkinter的GUI设计 和 django页面设计,那么笔者只是想快速做个demo原型,以上的内容能不能结合着来,有一些简单的交互 + web可以快速访问的到,于是就看到了jupyter notebook这两个库,非常简单的玩具,来看看呗~ 文章目录一 ipywidgets1.1 基础组件...

2018-11-22 22:57:25 8917 2

原创 基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索

(~免费广告位一则~) AI Lab开源大规模高质量中文词向量数据,800万中文词随你用,质量非常高,就是一个词向量.txt文件都有16G之多,太夸张了。。不过的确非常有特点: ⒈ 覆盖率(Coverage): 该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛...

2018-11-12 22:22:58 7943 24

原创 文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性

现实情况中,很多机器学习训练集会遇到样本不均衡的情况,应对的方案也有很多种。 笔者把看到的一些内容进行简单罗列,此处还想分享的是交叉验证对不平衡数据训练极为重要。 文章目录1 样本不平衡的解决思路1.2 将不平衡样本当作离群点1.2 欠采样/过采样1.3 训练策略的优化1.3.1 Focal_L...

2018-11-01 14:24:26 4518 0

原创 比赛必备 ︱ 省力搞定三款词向量训练 + OOV词向量问题的可性方案

本篇为资源汇总,一些NLP的比赛在抽取文本特征的时候会使用非常多的方式。 传统的有:TFIDF/LDA/LSI等 偏深度的有:word2vec/glove/fasttext等 还有一些预训练方式:elmo / bert 文章目录@[toc]1 之前的几款词向量介绍与训练帖子...

2018-10-31 21:48:09 5906 1

原创 极简使用︱Glove-python词向量训练与使用

glove/word2vec/fasttext目前词向量比较通用的三种方式,其中word2vec来看,在gensim已经可以极快使用(可见:python︱gensim训练word2vec及相关函数与功能理解) 官方glove教程比较啰嗦,可能还得设置一些参数表,操作不是特别方便。 笔者使用的时...

2018-10-12 16:27:34 13004 16

原创 Rstudio Server + Docker + tensorflowR - 云端安装与使用R语言与GPU深度学习

笔者本来想在阿里云上部署nvidia - docker + Rstudio Server,然后使用R语言来进行深度学习。本篇是在该过程中产生的经验之谈。 文章目录1 准备阶段2 Rstudio Server nvidia-docker 环境2.1 docker初始化的问题2.2 docker...

2018-09-28 15:49:36 1430 0

原创 ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)

无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为: 事件抽取(三元组) 观点抽取 “语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。 py...

2018-09-19 10:57:44 5523 7

提示
确定要删除当前文章?
取消 删除