悟乙己-CSDN博客

原创比赛必备︱省力搞定三款词向量训练 + OOV词向量问题的可性方案

本篇为资源汇总，一些NLP的比赛在抽取文本特征的时候会使用非常多的方式。传统的有：TFIDF/LDA/LSI等偏深度的有：word2vec/glove/fasttext等还有一些预训练方式：elmo / bert文章目录@[toc]1 之前的几款词向量介绍与训练帖子2 极简训练glove/word2vec/fasttext2.1 word2vec的训练与简易使用2.2 glove...

2018-10-31 21:48:09 9583 1

原创极简使用︱Gensim-FastText 词向量训练以及OOV（out-of-word）问题有效解决

glove/word2vec/fasttext目前词向量比较通用的三种方式，之前三款词向量的原始训练过程还是挺繁琐的，这边笔者列举一下再自己使用过程中快速训练的方式。其中，word2vec可见：python︱gensim训练word2vec及相关函数与功能理解glove可见：极简使用︱Glove-python词向量训练与使用因为是在gensim之中的，需要安装fasttext，可见：htt...

2018-10-13 19:37:17 41589 8

原创极简使用︱Glove-python词向量训练与使用

glove/word2vec/fasttext目前词向量比较通用的三种方式，其中word2vec来看，在gensim已经可以极快使用（可见：python︱gensim训练word2vec及相关函数与功能理解）官方glove教程比较啰嗦，可能还得设置一些参数表，操作不是特别方便。笔者使用的时候，用的是一款比较省力/封装的。官方glove:https://github.com/stanfordn...

2018-10-12 16:27:34 32993 22

原创 Rstudio Server + Docker + tensorflowR - 云端安装与使用R语言与GPU深度学习

笔者本来想在阿里云上部署nvidia - docker + Rstudio Server，然后使用R语言来进行深度学习。本篇是在该过程中产生的经验之谈。文章目录1 准备阶段2 Rstudio Server nvidia-docker 环境2.1 docker初始化的问题2.2 docker中文环境布置问题3 Rstudio Server的部署3.1 启动3.2 添加用户组4 R语言与tenso...

2018-09-28 15:49:36 3262

原创 ltp︱基于ltp的无监督信息抽取模块（事件抽取/评论观点抽取）

无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试，笔者私自将其归纳为：事件抽取（三元组）观点抽取“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台（LTP）” 为基础，为用户提供高效精准的中文自然语言处理云服务。pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色...

2018-09-19 10:57:44 10013 10

原创 neo4j︱neo4j批量导入neo4j-import （五）

neo4j数据批量导入目前主要有以下几种数据插入方式：（转自:如何将大规模数据导入Neo4j） Cypher CREATE 语句，为每一条数据写一个CREATE Cypher LOAD CSV 语句，将数据转成CSV格式，通过LOAD CSV读取数据。官方提供的Java API —— Batch Inserter 大牛编写的 Batch Import 工具官方提供的 neo4j-...

2018-09-05 16:04:38 22957 6

原创练习题 - 基于快速文本标题匹配的知识问答实现（二，实现篇）

承接练习题 - 基于快速文本标题匹配的知识问答实现（一，基础篇），前篇主要把qdr这个项目解剖了一下，现在开始应用做一下问答。可以看到qdr这个项目的特点是：可以快速比对两个文本之间的相似性，而且计算tfidf、bm25、lm三款模型的速度很快。那么本轮知识问答的设计源于此：先储备一批问答语料，一问一答比较合适；把问题进行分词,变为文本序列；载入qdr模型之中，进行训练；先t...

2018-08-30 22:30:19 1303 1

原创练习题 - 基于快速文本标题匹配的知识问答实现（一，基础篇）

该练习题来的很蹊跷，笔者在看entity embeddings的东西，于是看到了16年的这篇文章：Learning Query and Document Relevance from a Web-scale Click Graph，想试试效果，就搜到了qdr这个项目，然后试了试，虽然entity embeddings做的不好，但是好像可以依据里面的文本匹配搞搞问答，于是花了一点时间，因为是c...

2018-08-30 21:31:49 1389 2

原创流水账︱Elmo词向量中文训练过程杂记

1 elmo是什么？参考：《文本嵌入的经典模型与最新进展》人们已经提出了大量可能的词嵌入方法。最常用的模型是 word2vec 和 GloVe，它们都是基于分布假设的无监督学习方法（在相同上下文中的单词往往具有相似的含义）。虽然有些人通过结合语义或句法知识的有监督来增强这些无监督的方法，但纯粹的无监督方法在 2017-2018 中发展非常有趣，最著名的是 FastText（word2v...

2018-08-21 22:53:21 24732 13

原创 pyecharts︱交互式pyecharts的相关使用教程

pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒，为了与 Python 进行对接，方便在 Python 中直接使用数据生成图，我写了这个项目。以下是最新版echart的靓图。当然，pyecharts貌似没有这么齐全。官方文档：http://pyecharts.herokuap............

2018-08-07 22:38:50 15046

原创推荐系统︱基于bandit的主题冷启动在线学习策略

推荐系统里面有两个经典问题：EE问题和冷启动问题。什么是EE问题？又叫exploit－explore问题。exploit就是：对用户比较确定的兴趣，当然要利用开采迎合，好比说已经挣到的钱，当然要花；explore就是：光对着用户已知的兴趣使用，用户很快会腻，所以要不断探索用户新的兴趣才行，这就好比虽然有一点钱可以花了，但是还得继续搬砖挣钱，不然花完了就得喝西北风。除了bandit算...

2018-07-26 17:46:29 3136

原创 pySpark | pySpark.Dataframe使用的坑与经历

笔者最近在尝试使用PySpark，发现pyspark.dataframe跟pandas很像，但是数据操作的功能并不强大。由于，pyspark环境非自建，别家工程师也不让改，导致本来想pyspark环境跑一个随机森林，用《Comprehensive Introduction to Apache Spark, RDDs & Dataframes (using PySpark) 》中的案例，...

2018-07-05 16:43:56 23694 7

原创模型集成 | 14款常规机器学习 + 加权平均模型融合

模型融合的方法很多，Voting、Averaging、Bagging 、Boosting、 Stacking，那么一些kaggle比赛中选手会选用各种方法进行融合，其中岭回归就是一类轻巧且非常有效的方法，当然现在还有很多更有逼格的方法。本文是受快照集成的启发，把titu1994/Snapshot-Ensembles项目中，比较有意思的加权平均集成的内容抽取出来，单独应用。1 快照集成因为受...

2018-07-03 22:59:24 18347 6

原创 MOne︱基于词包的无监督多主题得分练习题

MOne基于词包的无监督多主题得分1 开源的今日头条又开源了一个某机构整理的今日头条数据，可见：今日头条中文新闻文本(多层)分类数据集本数据集有1000+分类，2914000条数据，虽然没有放开正文，但是也是非常好的词包收集源，于是笔者花了很久整理一版本。今日头条的数据样式为：以|,|分割的各字段，从前往后分别是新闻ID，分类代码，新闻字符串（仅含标题），新闻关键词，新闻labe...

2018-06-25 21:52:47 826

原创练习题︱基于今日头条开源数据（二）——两款Apriori算法实践

Apriori算法是通过限制候选产生发现频繁项集。总的来说，Apriori算法其实效率并不高，大规模数据计算的时候，需要考虑性能问题。 code + data可见：mattzheng/AprioriDemo盗图盗图：在R语言里面有非常好的package，可见我之前的博客： R语言实现关联规则与推荐算法(学习笔记) 该packages能够实现以下一些可视化： ...

2018-06-07 16:23:26 1479

原创 PySpark︱DataFrame操作指南：增/删/改/查/合并/统计与数据处理

笔者最近需要使用pyspark进行数据整理，于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。1、——– 查 ——–— 1.1 行元素查询操作 —像SQL那样打印列表前20元素show函数内可用int类型指定要打印的行数：df.show()df.show(30)以树的形式打印概要df.prin...

2018-05-29 18:38:51 147324 21

原创练习题︱基于今日头条开源数据的词共现、新热词发现、短语发现

最近笔者在做文本挖掘项目时候，写了一些小算法，不过写的比较重，没有进行效率优化，针对大数据集不是特别好用，不过在小数据集、不在意性能的情况下还是可以用用的。本次练习题中可以实现的功能大致有三个：短语发现新词发现词共现短语发现、新词发现跟词共现有些许区别： [‘举’，’个’，‘例子’，‘来说’]短语发现、新词发现，是词-词连续共现的频率，窗口范围为1，也就是：‘举’，‘例...

2018-05-25 18:43:09 6468 1

原创练习题︱图像分割与识别——UNet网络练习案例（两则）

代码见Github：mattzheng/U-Net-DemoU-Net是Kaggle比赛非常青睐的模型，简单、高效、易懂，容易定制，可以从相对较小的训练集中学习。来看几个变形：（1）Supervise.ly 公司。在用 Faster-RCNN（基于 NasNet）定位 + UNet-like 架构的分割，来做他们数据众包图像分割方向的主动学习，当时没有使用 Mask...

2018-04-27 22:54:45 41427 20

原创练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建（neo4j）

DouBanRecommend基于豆瓣图书的推荐、知识图谱与知识引擎简单构建neo4j本项目主要贡献源来自豆瓣爬虫（数据源）lanbing510/DouBanSpider、知识图谱引擎Agriculture_KnowledgeGraph、apple.turicreate中内嵌的推荐算法。主要拿来做练习，数据来源可见lanbing510/DouBanSpider。练习内容：豆瓣...

2018-04-24 18:57:44 3212 3

原创 neo4j︱与python结合的py2neo使用教程（四）

图数据库常规的有：neo4j（支持超多语言）、JanusGraph/Titan（分布式）、Orientdb，google也开源了图数据库Cayley（Go语言构成）、PostgreSQL存储RDF格式数据。—- 目前的几篇相关：—– neo4j︱图数据库基本概念、操作罗列与整理（一） neo4j︱Cypher 查询语言简单案例（二） neo4j︱Cypher完整案例csv导入、关系联通、...

2018-04-11 18:55:21 34393 6

原创 neo4j︱图数据库基本概念、操作罗列与整理（一）

图数据库常规的有：neo4j（支持超多语言）、JanusGraph/Titan（分布式）、Orientdb，google也开源了图数据库Cayley（Go语言构成）、PostgreSQL存储RDF格式数据。—- 目前的几篇相关：—– neo4j︱图数据库基本概念、操作罗列与整理（一） neo4j︱Cypher 查询语言简单案例（二） neo4j︱Cypher完整案例csv导入、关系联通、...

2018-04-10 16:40:06 13455

原创 neo4j︱Cypher完整案例csv导入、关系联通、高级查询（三）

图数据库常规的有：neo4j（支持超多语言）、JanusGraph/Titan（分布式）、Orientdb，google也开源了图数据库Cayley（Go语言构成）、PostgreSQL存储RDF格式数据。—- 目前的几篇相关：—– neo4j︱图数据库基本概念、操作罗列与整理（一） neo4j︱Cypher 查询语言简单案例（二） neo4j︱Cypher完整案例csv导入、关系联通、...

2018-04-08 15:24:53 31846 1

原创 neo4j︱Cypher 查询语言简单案例（二）

图数据库常规的有：neo4j（支持超多语言）、JanusGraph/Titan（分布式）、Orientdb，google也开源了图数据库Cayley（Go语言构成）、PostgreSQL存储RDF格式数据。—- 目前的几篇相关：—– neo4j︱图数据库基本概念、操作罗列与整理（一） neo4j︱Cypher 查询语言简单案例（二） neo4j︱Cypher完整案例csv导入、关系联通、...

2018-04-08 12:54:51 12574

原创 Ray︱高性能的分布式执行引擎起个头~

Ray是一个神奇的平台，可以做分布式训练，由于最近还不需要分布式去做一些模型，所以先Mark一下，等到有需求的时候在，再学习，只能说Ray，异常强大！文档：http://ray.readthedocs.io/en/latest/index.htmlgithub:https://github.com/ray-project/ray作者博客：https://rise.cs.berkeley....

2018-03-28 17:32:15 4222 2

原创关键点定位︱四款人体姿势关键点估计论文笔记

一、三款模型几款模型目前来看的精度：CPM < DeeperCut < CMU OpenPose < AlphaPose 模型大体框架多人估计的应对措施 CPM CPM是一个cascaded网络，多个stage反复去定位、修正响应图 center map，为一个高斯响应，因为cpm处理的是单人pose的问题，如果图片中有多人，那么...

2018-03-26 22:23:15 31966 4

原创 python爬虫︱百度百科的requests请求、百度URL格式、网页保存、爬虫模块

1 、百科网页请求1.1 网站解析requests与urllib.request对比：py3中主要用requests以及urllib.request两款库用来做网页内容的解析，两者的使用较多以requests为优，解析的内容会做较多的优化。两款内容的对比：from bs4 import BeautifulSoupurl="http://finance.qq.com/gdyw...

2018-03-08 16:48:01 2518

原创 ChineseWiki︱百万中文维基百科词条下载与整理

维基百科中文词条维基百科开源的中文词条内容，收集了99W+词条，当然比百度少了不少。有效处理该原始语料的方法主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。两种处理都比较粗糙，导致：Wikipedia Extractor提取出来的结果，会去掉很多空格与括号里面的内容；gensim.corpora.wikicorpus.WikiC...

2018-03-07 09:35:49 17491 2

原创 git与github远程连接代码库使用笔记

一、安装与账号添加1.git安装目前windows版本的git有几种实现，但我们选择msysgit发行版，这是目前做得兼容性最好的。下载地址：http://code.google.com/p/msysgit/downloads/list2.生成SSH密钥ssh-keygen -C 'XX@gmail.com' -t rsa相关内容会存放在：C:\Users\user...

2018-03-01 17:08:13 676

原创 pyLDA系列︱考量时间因素的动态主题模型（Dynamic Topic Models）

笔者很早就对LDA模型着迷，最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款：Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型解析功能 ATM模型（Author-Topic Model）加...

2018-02-26 15:29:20 10730 7

原创 pyLDA系列︱gensim中的主题模型（Latent Dirichlet Allocation）

笔者很早就对LDA模型着迷，最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款：Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型解析功能 ATM模型（Author-Topic Model）加...

2018-02-23 23:17:02 17172 6

原创 pyLDA系列︱gensim中带'监督味'的作者-主题模型（Author-Topic Model）

笔者很早就对LDA模型着迷，最近在学习gensim库发现了LDA比较有意义且项目较为完整的Tutorials,于是乎就有本系列,本系列包含三款：Latent Dirichlet Allocation、Author-Topic Model、Dynamic Topic Models pyLDA系列模型解析功能 ATM模型（Author-Topic Model）加...

2018-02-20 15:37:39 11572 19

原创 python︱微服务Sanic制作一个简易本地restful API

Sanic是一个支持 async/await 语法的异步无阻塞框架，Flask的升级版，效率更高，性能会提升不少，我将同一服务分别用Flask和Sanic编写，再将压测的结果进行对比，发现Sanic编写的服务大概是Falsk的1.5倍。不过Sanic对环境的要求比较苛刻：linux /Mac + python3.5+ window不支持uvloop先上一个简单案例：#!/usr/...

2018-02-08 18:58:16 14139 1

原创 python︱用asyncio、aiohttp实现异步及相关案例

Asyncio 是并发（concurrency）的一种方式。对 Python 来说，并发还可以通过线程（threading）和多进程（multiprocessing）来实现。Asyncio 并不能带来真正的并行（parallelism）。当然，因为 GIL（全局解释器锁）的存在，Python 的多线程也不能带来真正的并行。 .一、asyncio的异步主要来源：Python 的

2018-02-03 14:03:45 8151 1

原创推荐模块︱apple.Turicreate个性化推荐recommender（五）

这是第五篇apple.Turicreate，主要模块是个性化推荐模块。一如既往的简洁，集成了非常多内容。笔者从实践来看，一直觉得关系网络模块、近邻模块以及如今的推荐模块都有很多相似的地方。从apple.Turicreate封装的内容以及可实现的功能来看，确实做到了互通有无，有种贯穿各类算法任督二脉的感觉。跟近邻模块相比，近邻模块每个节点都有自己的特征向量；跟关系网络对比，...

2018-01-05 16:39:19 4564 2

原创关系图︱python 关系网络的可视化NetworkX(与Apple.Turicreate深度契合)

Apple.Turicreate模块中本来是有可视化.show()模块，但是4.0版本之后移除了。感谢apple工程师耐心+ 详细推荐了networkX。于是乎摸索了一下，如何用networkx与Apple.Turicreate互动。来一个例子开场：import networkx as nx%matplotlib inlinefrom turicreate im...

2018-01-03 17:27:59 15379 1

原创近邻模块︱apple.Turicreate中相似判定Nearest Neighbors（四）

apple.Turicreate已经是第四篇了。本模块主要阐述该平台相似模块的一些功能。也是目前求相似解决方案很赞的一个。官方地址：https://apple.github.io/turicreate/docs/api/turicreate.toolkits.nearest_neighbors.html地址二：https://apple.github.io/turicreate...

2018-01-02 19:21:00 1659

原创轻知识库︱apple.Turicreate数据结构SGraph以及关系网络SNA分析（三）

笔者之前在学SNA时候对这块内容基本了解，这次遇到了apple.Turicreate，觉得该库可以通用性很强，而且算法面很多。本篇结构先来看看：1、SGraph2、关系网络的点出度、点入度、点密度、特征向量中心度—- 点出度—- 点入度—- 点密度（triangle_counting）—- 特征向量中心度（pagerank）3、关系网络分析—...

2017-12-25 15:47:26 2844

原创极简主义︱利用apple机器学习平台Turicreate实现图像相似性检索（二）

apple开源机器学习框架turicreate内容非常广阔，本篇介绍冰山一角的图像相似，极简主义的代表！！！！ github:https://apple.github.io/turicreate/docs/api/generated/turicreate.SFrame.html首篇博客：python︱apple开源机器学习框架turicreate中的SFrame——新形态pd.DataFra...

2017-12-19 19:25:04 6801 1

原创 python︱apple开源机器学习框架turicreate中的SFrame——新形态pd.DataFrame

apple开源机器学习框架turicreate中的SFrame，是一种新形态的dataframe，作为之前热爱过R语言的dataframe的玩家来看，还不够简洁，不过有自己独特的功能。 github:https://apple.github.io/turicreate/docs/api/generated/turicreate.SFrame.html导入模块的方式：# 第一种imp...

2017-12-14 18:44:10 5601 1

原创 docker︱在nvidia-docker中使用tensorflow-gpu/jupyter

docker小白… 搭建基础：宿主机已经有CUDA8.0进出快捷键：ctrl+d 退出容器且关闭, docker ps 查看无ctrl+p+q 退出容器但不关闭, docker ps 查看有使用docker restart命令重启容器使用docker attach命令进入容器一、安装参考：Docker Compose + GPU + TensorFlow = ...

2017-12-06 11:27:14 24322 1

Rstudio Server + Docker + tensorflowR的dockerfile文件

数美科技李田：机器学习与在数美业务上的落地

Prophet的案例数据

VMware-player-12.0.0-part1

word2vec自编译函数（By Jian Li,2014-09-21）

空空如也