[置顶] fastrtext︱R语言使用facebook的fasttext快速文本分类算法

FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的。理论介绍可见博客:NLP︱高级词向量表达(二)——FastText(简述、学习笔记) 本轮新更新的fastrtext,同样继承了两个功能:训练词向量 + 文本分类模型训练 来源:https://github.com/pommedeterresautee/f...
阅读(181) 评论(0)

[置顶] 创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)

技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。 CVaaS 计算机视觉即服务的理念介绍 观点来源于:极视角科技联合创始人 罗韵 CVaaS 就是 Computer Vision as a Service, 我们把 CV 的部分标准化成为了一种服务,而每一个行业可以在这里找到自己行业需要的和图像处理、视频处理、计算机视觉相关的算法服务,然后他们可以整合这...
阅读(1535) 评论(1)

[置顶] R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)

经统专业看到预测的packages都是很眼馋的。除了之前的forecast包,现在这个prophet功能也很强大。本packages是由机器之心报道之后,抽空在周末试玩几小时。一些基本介绍可见机器之心的《业界 | Facebook开源大规模预测工具Prophet:支持Python和R》 并不喜欢理论分析,能直接上案例的,一般不码字,力求简单粗暴!! 官网网址:https://fac...
阅读(2580) 评论(2)

[置顶] cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)

在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。 CIPS2016 中文信息处理报告《第五章 语言表示与深度学习研究进展、现状及趋势》第三节 技术方法和研究现状...
阅读(3711) 评论(4)

[置顶] 迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe(only CPU)

说起来这门技术大多是秀的成分高于实际,但是呢,其也可以作为图像增强的工具,看到一些比赛拿他作训练集扩充,还是一个比较好的思路。如何在caffe上面实现简单的风格转化呢?好像网上的博文都没有说清楚,而且笔者也没有GPU机器,于是乎,走上了漫漫的研究逼死自己之路...作者实践机器配置:服务器:ubuntu16.04(8 core)+caffe+only CPU一、图像风格迁移:image style...
阅读(4383) 评论(5)

[置顶] R︱foreach+doParallel并行+联用迭代器优化内存+并行机器学习算法

接着之前写的并行算法parallel包,parallel相比foreach来说,相当于是foreach的进阶版,好多东西封装了。而foreach包更为基础,而且可自定义的内容很多,而且实用性比较强,可以简单的用,也可以用得很复杂。笔者将自己的学习笔记记录一下。R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)——————————————————...
阅读(1601) 评论(0)

python︱利用dlib和opencv实现简单换脸、人脸对齐、关键点定位与画图

这是一个利用dlib进行关键点定位 + opencv处理的人脸对齐、换脸、关键点识别的小demo。原文来自于《Switching Eds: Face swapping with Python, dlib, and OpenCV》 该博文的github地址中有所有的code。这边我将我抽取的code放在自己的github之中,可以来这下载: https://github.com/mattzheng...
阅读(157) 评论(0)

python︱matplotlib使用(读入、显示、写出、opencv混用...)

opencv和matplotlib是比较常用的图像分析模块。在Ipython里面,opencv不能直接显示出来,所以有些时候会借助matplotlib来显示。 .1、matplotlib的读入与显示import matplotlib.pyplot as plt import numpy as np from PIL import Image img = Image.open('lena....
阅读(31) 评论(0)

python︱flashtext高效字符串查找与替换

项目链接:https://github.com/vi3k6i5/flashtext 原文:资源 | 十五分钟完成Regex五天任务:FastText,语料库数据快速清理利器 .性能:案例:字符串查找英文:# pip install flashtext from flashtext.keyword import KeywordProcessor keyword_processor = Keywor...
阅读(62) 评论(0)

pytreebank︱情感分析可视化——情感结构树

效果如上,一句话用树状来表达,具体案例可查询stanford Sentiment Analysis网站如何用py来画,主要参考自pytreebank-github1 直接上案例,官网案例数据下载:http://nlp.stanford.edu/sentiment/trainDevTestTrees_PTB.zipimport pytreebank dataset = pytreebank.load...
阅读(153) 评论(0)

python︱HTML网页解析BeautifulSoup学习笔记

一、载入html页面信息一种是网站在线的网页、一种是下载下来的静态网页。1、在线网页参考《python用BeautifulSoup库简单爬虫入门+案例(爬取妹子图)》中的载入内容:import requests from bs4 import BeautifulSoupheaders={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleW...
阅读(319) 评论(0)

笔记︱利用python + flask制作一个简易本地restful API

原版官网:http://flask-restful.readthedocs.io/en/latest/ 中文官网:http://www.pythondoc.com/Flask-RESTful/quickstart.html python3下载:pip install flask-restful.一、案例解析由一个完整案例解析:from flask import Flask from flask....
阅读(372) 评论(0)

python︱大规模数据存储与读取、并行计算:Dask库简述

数据结构与pandas非常相似,比较容易理解。 原文文档:http://dask.pydata.org/en/latest/index.html github:https://github.com/daskdask的内容很多,挑一些我比较看好的内容着重点一下。 .一、数据读取与存储先来看看dask能读入哪些内容: 1、csvdask并不能读入excel,这个注意# pandas import p...
阅读(473) 评论(0)

python︱sklearn一些小技巧的记录(pipeline...)

sklearn里面包含内容太多,所以一些实用小技巧还是挺好用的。1、LabelEncoder简单来说 LabelEncoder 是对不连续的数字或者文本进行编号from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le.fit([1,5,67,100]) le.transform([1,1,100,67,5])输出: a...
阅读(604) 评论(0)

结构化数据转换方式之一:box-cox转换

之前在《笔记︱信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)》中提到过WOE转换,WOE转换=分箱法=Logit值,与等深、等宽不同是根据被解释变量来重新定义一个WOE值 **笔者将其定位于对自变量的数据转换。 现在来看看对于因变量的数据转换:BOX-COX转换。**内容主要参考交大的课件:BoxCox-变换方法及其实现运用.pptx优势: 线性回归模型满足线性性、独立性、方...
阅读(454) 评论(0)

ChainerCV︱堪比Opencv--深度学习工具库(Faster R-CNN、SSD 和 SegNet)

Preferred Networks 通过其研究博客发布了深度学习计算机视觉实用库 ChainerCV,它基于 Chainer,能够简化计算机视觉的训练和应用过程,并含有用于计算机视觉研究的必备工具集。 ChainerCV 提供了目标检测和语义分割模型(Faster R-CNN、SSD 和 SegNet)的实现。 ChainerCV 具有大量的已训练权重,可在运行时自动从网络上下载...
阅读(520) 评论(0)

python︱处理与使用json格式的数据(json/UltraJSON/Demjson)

python种关于json有很多,simplejson,cjson,还有ujson(详细内容可见:http://blog.csdn.net/gzlaiyonghao/article/details/6567408). cjson模块只支持string/unicode的key JSON(JavaScript Object Notation)编码格式的数据。 1、变量解码、编码为Json格式 2、文...
阅读(713) 评论(0)

python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP

THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) 四款都有分词功能,本博客只介绍作者比较感兴趣、每个模块的内容。jieba在这不做介绍,可见博客: python+gensim︱jieba分词、词袋doc...
阅读(1399) 评论(1)

无监督︱异常、离群点检测 一分类——OneClassSVM

OneClassSVM两个功能:异常值检测、解决极度不平衡数据因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM;OneClassSVM还有一个功能就是异常值检测。其他我的相关博客: 1、机器学习︱非平衡数据处理方式与评估 2、RFM模型+SOM聚类︱离群值筛选问题 3、R语言︱异常值检验、离群点分析、异常值处理台湾大学林智仁所...
阅读(1627) 评论(0)

SELU︱在keras、tensorflow中使用SELU激活函数

arXiv 上公开的一篇 NIPS 投稿论文《Self-Normalizing Neural Networks》引起了圈内极大的关注,它提出了缩放指数型线性单元(SELU)而引进了自归一化属性,该单元主要使用一个函数 g 映射前后两层神经网络的均值和方差以达到归一化的效果。 Shao-Hua Sun 在 Github 上放出了 SELU 与 Relu、Leaky Relu 的对比,机器之心对比较结果...
阅读(1162) 评论(0)
257条 共18页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1100713次
    • 积分:12096
    • 等级:
    • 排名:第1357名
    • 原创:199篇
    • 转载:57篇
    • 译文:1篇
    • 评论:291条
    作者简介
      技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。 ——微信公众号:素质云笔记
    博客专栏
    最新评论