素质云笔记/Recorder...

Research Area:计算机视觉舆情 + 知识图谱

极简使用︱Gemsim-FastText 词向量训练以及OOV(out-of-word)问题有效解决

glove/word2vec/fasttext目前词向量比较通用的三种方式,之前三款词向量的原始训练过程还是挺繁琐的,这边笔者列举一下再自己使用过程中快速训练的方式。 其中,word2vec可见:python︱gensim训练word2vec及相关函数与功能理解 glove可见:极简使用︱Gl...

2018-10-13 19:37:17

阅读数 2019

评论数 0

练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建(neo4j)

DouBanRecommend 基于豆瓣图书的推荐、知识图谱与知识引擎简单构建neo4j 本项目主要贡献源来自豆瓣爬虫(数据源)lanbing510/DouBanSpider、知识图谱引擎Agriculture_KnowledgeGraph、apple.turicreate中内嵌的推荐算法。 ...

2018-04-24 18:57:44

阅读数 1087

评论数 2

R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)

经统专业看到预测的packages都是很眼馋的。除了之前的forecast包,现在这个prophet功能也很强大。本packages是由机器之心报道之后,抽空在周末试玩几小时。一些基本介绍可见机器之心的《业界 | Facebook开源大规模预测工具Prophet:支持Python...

2017-02-26 20:53:05

阅读数 10935

评论数 4

cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)

在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。 C...

2017-02-05 19:06:55

阅读数 8558

评论数 6

迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe(only CPU)

说起来这门技术大多是秀的成分高于实际,但是呢,其也可以作为图像增强的工具,看到一些比赛拿他作训练集扩充,还是一个比较好的思路。如何在caffe上面实现简单的风格转化呢?好像网上的博文都没有说清楚,而且笔者也没有GPU机器,于是乎,走上了漫漫的研究逼死自己之路...作者实践机器配置:服务器:ubun...

2017-01-02 14:41:27

阅读数 7720

评论数 11

keras-yolov3 + Kalman-Filter 进行人体多目标追踪(含代码)

keras-yolov3 + kalman filter进行目标检测 detector+tracker detector丢失目标 我们目前detector为了求快用了yolo,但是one stage的算法目标丢失情况挺严重的. 多帧融合可以考虑一下 为了保持跟踪的快速性,所以,在检测车辆...

2019-01-20 11:21:44

阅读数 112

评论数 0

自有数据集上,如何用keras最简单训练YOLOv3目标检测

qqwweee/keras-yolo3是最简单的自数据训练yolov3的开源项目了。非常简单,相比其他的开源项目,太适合新手练习yolov3。 而公开的很多开源框架的都是基于VOC/COCO来写预训练,整理数据起麻烦不少。 本来笔者看到mxnet/gluoncv有yolov3的自训练,而且Mxne...

2019-01-02 14:20:03

阅读数 160

评论数 5

python︱ collections模块(namedtuple/defaultdict/OrderedDict等)

collections有的功能: ['deque', 'defaultdict', 'namedtuple', 'UserDict', 'UserList', 'UserString',\ 'Counter', 'OrderedDict', 'ChainMap', 'Awaitable', '...

2018-11-27 11:06:01

阅读数 96

评论数 0

Jupyter notebook最简原型界面设计 - ipywidgets与lineup_widget

Tkinter的GUI设计 和 django页面设计,那么笔者只是想快速做个demo原型,以上的内容能不能结合着来,有一些简单的交互 + web可以快速访问的到,于是就看到了jupyter notebook这两个库,非常简单的玩具,来看看呗~ 文章目录一 ipywidgets1.1 基础组件...

2018-11-22 22:57:25

阅读数 1235

评论数 1

基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索

(~免费广告位一则~) AI Lab开源大规模高质量中文词向量数据,800万中文词随你用,质量非常高,就是一个词向量.txt文件都有16G之多,太夸张了。。不过的确非常有特点: ⒈ 覆盖率(Coverage): 该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面...

2018-11-12 22:22:58

阅读数 1585

评论数 6

文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性

现实情况中,很多机器学习训练集会遇到样本不均衡的情况,应对的方案也有很多种。 笔者把看到的一些内容进行简单罗列,此处还想分享的是交叉验证对不平衡数据训练极为重要。 文章目录1 样本不平衡的解决思路1.2 将不平衡样本当作离群点1.2 欠采样/过采样1.3 训练策略的优化1.3.1 Focal_L...

2018-11-01 14:24:26

阅读数 487

评论数 0

比赛必备 ︱ 省力搞定三款词向量训练 + OOV词向量问题的可性方案

本篇为资源汇总,一些NLP的比赛在抽取文本特征的时候会使用非常多的方式。 传统的有:TFIDF/LDA/LSI等 偏深度的有:word2vec/glove/fasttext等 还有一些预训练方式:elmo / bert 文章目录@[toc]1 之前的几款词向量介绍与训练帖子...

2018-10-31 21:48:09

阅读数 1119

评论数 0

极简使用︱Glove-python词向量训练与使用

glove/word2vec/fasttext目前词向量比较通用的三种方式,其中word2vec来看,在gensim已经可以极快使用(可见:python︱gensim训练word2vec及相关函数与功能理解) 官方glove教程比较啰嗦,可能还得设置一些参数表,操作不是特别方便。 笔者使用的时...

2018-10-12 16:27:34

阅读数 1089

评论数 0

Rstudio Server + Docker + tensorflowR - 云端安装与使用R语言与GPU深度学习

笔者本来想在阿里云上部署nvidia - docker + Rstudio Server,然后使用R语言来进行深度学习。本篇是在该过程中产生的经验之谈。 文章目录1 准备阶段2 Rstudio Server nvidia-docker 环境2.1 docker初始化的问题2.2 docker...

2018-09-28 15:49:36

阅读数 321

评论数 0

ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)

无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为: 事件抽取(三元组) 观点抽取 “语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。 py...

2018-09-19 10:57:44

阅读数 819

评论数 0

neo4j︱neo4j批量导入neo4j-import (五)

neo4j数据批量导入 目前主要有以下几种数据插入方式:(转自:如何将大规模数据导入Neo4j) Cypher CREATE 语句,为每一条数据写一个CREATE Cypher LOAD CSV 语句,将数据转成CSV格式,通过LOAD CSV读取数据。 官方提供的Java API —— ...

2018-09-05 16:04:38

阅读数 1069

评论数 0

练习题 - 基于快速文本标题匹配的知识问答实现(二,实现篇)

承接练习题 - 基于快速文本标题匹配的知识问答实现(一,基础篇),前篇主要把qdr这个项目解剖了一下,现在开始应用做一下问答。 可以看到qdr这个项目的特点是:可以快速比对两个文本之间的相似性,而且计算tfidf、bm25、lm三款模型的速度很快。 那么本轮知识问答的设计源于此: 先储备一...

2018-08-30 22:30:19

阅读数 312

评论数 0

练习题 - 基于快速文本标题匹配的知识问答实现(一,基础篇)

该练习题来的很蹊跷,笔者在看entity embeddings的东西,于是看到了16年的这篇文章:Learning Query and Document Relevance from a Web-scale Click Graph,想试试效果,就搜到了qdr这个项目,然后试了试,虽然enti...

2018-08-30 21:31:49

阅读数 402

评论数 2

流水账︱Elmo词向量中文训练过程杂记

1 elmo是什么? 参考:《文本嵌入的经典模型与最新进展》 人们已经提出了大量可能的词嵌入方法。最常用的模型是 word2vec 和 GloVe,它们都是基于分布假设的无监督学习方法(在相同上下文中的单词往往具有相似的含义)。 虽然有些人通过结合语义或句法知识的有监督来增强这些无...

2018-08-21 22:53:21

阅读数 9052

评论数 9

随笔记︱交互式pyecharts的简单使用

pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图,我写了这个项目。以下是最新版echart的靓图。当然,py...

2018-08-07 22:38:50

阅读数 937

评论数 0

提示
确定要删除当前文章?
取消 删除