2017年02月_悟乙己

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 R+python︱Facebook大规模时序预测『真』神器——Prophet（遍地代码图）

经统专业看到预测的packages都是很眼馋的。除了之前的forecast包，现在这个prophet功能也很强大。本packages是由机器之心报道之后，抽空在周末试玩几小时。一些基本介绍可见机器之心的《业界 | Facebook开源大规模预测工具Prophet：支持Python和R》并不喜欢理论分析，能直接上案例的，一般不码字，力求简单粗暴！！官网网址：https...

2017-02-26 20:53:05 20568 5

原创 R+大地图时代︱ leaflet/leafletCN 动态、交互式绘制地图（遍地代码图）

好久没有学习R的新包了，甚是想念啊！昨天、今天看到两个极好、不得不学的packages+早上被AWS的服务器整得郁闷ing…于是就来点颜色看看~本篇受Lchiffon老师的github启发，对两个packages进行简单的试玩。leaflet是一个国外动态交互图做得很棒的网站，Lchiffon老师对其进行一些封装，适应了“中国国情”，那就让我们先来看看Lchiffon的leaf...

2017-02-25 18:28:25 26013

原创 caffe+GPU︱AWS.G2+Ubuntu14.04+GPU+CUDA8.0+cudnn8.0

国服亚马逊的GPU实例G2.2xlarge的python+caffe的安装过程，被虐… 一周才装出来… BVLC/caffe的在AWS安装的官方教程github： https://github.com/BVLC/caffe/wiki/Install-Caffe-on-EC2-from-scratch-(Ubuntu,-CUDA-7,-cuDNN-3)如果要在AWS试的话，推荐不要用其他

2017-02-21 18:51:12 3809

原创 NLP+语篇分析（五）︱中文语篇分析研究现状（CIPS2016）

摘录自：CIPS2016 中文信息处理报告《第三章语篇分析研究进展、现状及趋势》P21 CIPS2016 中文信息处理报告下载链接：http://cips-upload.bj.bcebos.com/cips2016.pdf语篇分析又称话语分析或篇章分析，是对“ 语篇” 整体进行的分析，包括语篇基本单元之间的关系，不同语篇单元的成份间关联以及语篇所含的信息等等。语篇是由一个以上的句子（

2017-02-18 23:02:33 8437 2

原创 NLP+语义分析（四）︱中文语义分析研究现状（CIPS2016、角色标注、篇章分析）

摘录自：CIPS2016 中文信息处理报告《第二章语义分析研究进展、现状及趋势》P14 CIPS2016> 中文信息处理报告下载链接：http://cips-upload.bj.bcebos.com/cips2016.pdf任何对语言的理解都可以归为语义分析的范畴。一段文本通常由词、句子和段落来构成，根据理解对象的语言单位不同，语义分析又可进一步分解为词汇级...

2017-02-18 22:51:17 37634

原创 NLP+句法结构（三）︱中文句法结构（CIPS2016、依存句法、文法）

摘录自：CIPS2016 中文信息处理报告《第一章词法和句法分析研究进展、现状及趋势》P8 -P11 CIPS2016> 中文信息处理报告下载链接：http://cips-upload.bj.bcebos.com/cips2016.pdf .NLP词法、句法、语义、语篇综合系列： NLP+词法系列（一）︱中文分词技术小结、几大分词引擎的介绍与比较 NLP+词法系列（二）︱中文分词

2017-02-18 22:26:15 25786

原创 NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）

摘录自：CIPS2016 中文信息处理报告《第一章词法和句法分析研究进展、现状及趋势》P4 CIPS2016 中文信息处理报告下载链接：http://cips-upload.bj.bcebos.com/cips2016.pdf之前写过一篇中文分词总结，那么在那篇基础上，通过在CIPS2016的摘录进行一些拓展。可参考上篇：NLP+词法系列（一）︱中文分词技术小结、几大分...

2017-02-18 22:12:52 24192 2

原创 caffe︱ImageData层、DummyData层作为原始数据导入的应用

Part1:caffe的ImageData层ImageData是一个图像输入层，该层的好处是，直接输入原始图像信息就可以导入分析。在案例中利用ImageData层进行数据转化，得到了一批数据。但是笔者现在还有几个问题，这个ImageData只能显示一个batch的图像信息，不能在同一案例循环使用的是吧？L.ImageData之后的数据，可以直接用于框架的输入数据吗？（待尝试） .一、

2017-02-12 13:25:10 10108 4

原创微调︱caffe中fine-tuning模型三重天（函数详解、框架简述）+微调技巧

本文主要参考caffe官方文档[《Fine-tuning a Pretrained Network for Style Recognition》](http://nbviewer.jupyter.org/github/BVLC/caffe/blob/master/examples/02-fine-tuning.ipynb)是第二篇案例。笔者对其进行了为期一周的断断续续的研究，笔者起先对python

2017-02-12 13:15:09 9929

原创新手福音︱正则表达式小工具RegExr

由于之前在做NLP的内容，势必会接触正则表达式，但是呢，又觉得这个学不明白… 于是，这个工具还是蛮不错的，相当于在线正则速查+验证小工具，对于我这样的新手值得去玩玩。github：https://github.com/gskinner/regexr/ 网页版速查：http://regexr.com/开篇就是一个案例。然后左边及左下角是一些示例+常用规则列表，给力~

2017-02-11 10:05:44 3406

原创 NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing...

~~因为不太会使用opencv、matlab工具，所以在找一些比较简单的工具。 . .一、NLP标注工具来源：《构想：中文文本标注工具（附开源文本标注工具列表）》Chinese-Annotator 来源：https://github.com/crownpku/Chinese-Annotator能不能构建一个中文文本的标注工具，可以达到以下两个特点：标注过程背后

2017-02-07 12:12:01 78306 4

原创 cips2016+学习笔记︱NLP中的消岐方法总结（词典、有监督、半监督）

歧义问题方面，笔者一直比较关注利用词向量解决歧义问题：也许你寄希望于一个词向量能捕获所有的语义信息（例如run即是动车也是名词），但是什么样的词向量都不能很好地进行凸显。这篇论文有一些利用词向量的办法：Improving Word Representations Via Global Context And Multiple Word Prototypes(Huang et al. 2012)

2017-02-05 19:37:45 16337 1

原创 cips2016+学习笔记︱简述常见的语言表示模型（词嵌入、句表示、篇章表示）

在cips2016出来之前，笔者也总结过种类繁多，类似词向量的内容，自然语言处理︱简述四大类文本分析中的“词向量”（文本词特征提取）事实证明，笔者当时所写的基本跟CIPS2016一章中总结的类似，当然由于入门较晚没有CIPS2016里面说法权威，于是把CIPS2016中的内容，做一个摘录。CIPS2016 中文信息处理报告《第五章语言表示与深度学习研究进展、现状及趋势》第三节技术方法和研

2017-02-05 19:06:55 14737 7

原创 Recorder︱图像语义分割（FCN、CRF、MRF）、论文延伸（Pixel Objectness、）

图像语义分割的意思就是机器自动分割并识别出图像中的内容，我的理解是抠图… 之前在Faster R-CNN中借用了RPN(region proposal network)选择候选框，但是仅仅是候选框，那么我想提取候选框里面的内容，就是图像语义分割了。简单的理解就是，图像的“分词技术”。参考文献： 1、知乎，困兽，关于图像语义分割的总结和感悟 2、微信公众号，沈MM的小喇叭，十分钟看

2017-02-05 17:57:34 13316

转载 PaddlePaddle︱开发文档中学习情感分类（CNN、LSTM、双向LSTM）、语义角色标注

PaddlePaddle出教程啦，教程一部分写的很详细，值得学习。一期涉及新手入门、识别数字、图像分类、词向量、情感分析、语义角色标注、机器翻译、个性化推荐。二期会有更多的图像内容。随便，帮国产框架打广告：加入TechWriter队伍，强大国产深度学习利器。https://github.com/PaddlePaddle/Paddle/issues/787 . .一、情感分类模型介绍C

2017-02-04 17:59:10 18866 3

转载转︱机器学习算法线上部署方法

本文由携程技术中心投递，ID：ctriptech。作者：潘鹏举，携程酒店研发BI经理，负责酒店服务相关的业务建模工作，主要研究方向是用机器学习实现业务流程自动化、系统智能化、效率最优化，专注于算法实践和应用。我们经常会碰到一个问题：用了复杂的GBDT或者xgboost大大提升了模型效果，可是在上线的时候又犯难了，工程师说这个模型太复杂了，我没法上线，满足不了工程的要求，你帮我转换成LR吧，直接套用

2017-02-04 17:17:28 1801

原创 Recorder︱一些图像识别初创公司产品及API搜集ing...

一些公司的产品路线可以很好地给我们启示，欢迎看客补充。可参考：从人脸识别到机器翻译：52个有用的机器学习和预测API一、微软认知服务API1、年龄、性别检测2、物体分类、识别3、识别名人全新的名人识别模块可以识别20万来自全球各地涉及商界、政界、体育界以及娱乐界的名人。4、读取图片中的文字光学字符识别（OCR）可检测图片中的文字信息，并将提取出来的文字信息转化成为机器可读的字符串。通过分析

2017-02-04 17:05:49 26152

原创 NLP︱高级词向量表达（三）——WordRank（简述）

如果说FastText的词向量在表达句子时候很在行的话，GloVe在多义词方面表现出色，那么wordRank在相似词寻找方面表现地不错。其是通过Robust Ranking来进行词向量定义。相关paper：WordRank: Learning Word Embeddings via Robust Ranking 相关博客：https://rare-technologi

2017-02-04 00:10:22 14120 1

原创 NLP︱高级词向量表达（二）——FastText（简述、学习笔记）

FastText是Facebook开发的一款快速文本分类器，提供简单而高效的文本分类和表征学习的方法，不过这个项目其实是有两部分组成的，一部分是这篇文章介绍的 fastText 文本分类（paper：A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classif...

2017-02-03 23:20:56 93278 12

转载阿里舆情︱舆情热词分析架构简述（Demo学习）

本节来源于阿里云栖社区，同时正在开发一个舆情平台，其中他们发布了一篇他们所做的分析流程，感觉可以作为案例来学习。文章来源：觉民cloud/云栖社区平台试用链接：https://prophet.data.aliyun.com/hotword?spm=5176.100239.blogcont68813.6.QB2AAc&isDemo=true一般热词分析历经：分词、关键词提取、词关联计算、热度计算一、分

2017-02-03 17:14:31 10662

原创 NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）

有很多改进版的word2vec，但是目前还是word2vec最流行，但是Glove也有很多在提及，笔者在自己实验的时候，发现Glove也还是有很多优点以及可以深入研究对比的地方的，所以对其进行了一定的学习。部分学习内容来源于小象学院，由寒小阳老师授课《深度学习二期课程》高级词向量三部曲：1、NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）

2017-02-03 15:32:08 39935 6