笔尖的痕的专栏

don't be shy, just try!

单例模式的七种写法

转自:http://www.blogjava.net/kenzhh/archive/2013/03/15/357824.html 第一种(懒汉,线程不安全):  1 public class Singleton {    2     private static Singleto...

2017-02-15 21:03:14

阅读数 305

评论数 0

Keras笔记 -- objective

Keras定义了以下几种objective fuction: (1) mean-squared-error def mean_squared_error(y_true, y_pred): return K.mean(K.square(y_pred - y_true...

2016-10-01 21:18:58

阅读数 652

评论数 0

多标签分类(multilabel classification )

这几天看了几篇相关的文章, 写篇文章总结一下,就像个小综述一样, 文章会很乱    1、multilabel classification的用途          多标签分类问题很常见, 比如一部电影可以同时被分为动作片和犯罪片, 一则新闻可以同时属于政治和法律,还有生物学中的基因功能预测问题...

2016-09-30 00:02:09

阅读数 29045

评论数 4

文本自动分类

使用机器学习方法 做文档的自动分类 套路: 1.根据每个文件 生成该文件的一个特征 2.根据特征 选择 分类器 进行文本分类 3.(可选)根据 2 步结果,调整参数/特征等 示例: 数据:搜狗文本分类语料库 精简版 分类器:朴素贝叶斯 编...

2016-09-22 17:33:03

阅读数 728

评论数 0

使用Python分析社交网络数据

在线社交网站为人们提供了一个构建社会关系网络和互动的平台。每一个人和组织都可以通过社交网站互动、获取信息并发出自己的声音,因而吸引了众多的使用者。作为一个复杂的社会系统,在线社交网站真实地记录了社会网络的增长以及人类传播行为演化。通过抓取并分析在线社交网站的数据,研究者可以迅速地把握人类社交网络行...

2016-09-22 16:58:34

阅读数 2371

评论数 0

nltk-构建和使用语料库-可用于小说的推荐-完整实例

步骤1:构建语料库: [python] view plain copy #!/usr/bin/env python   #-*-coding=utf-8-*-           #数据源目录(二级目录)   sourceDataDir...

2016-09-22 16:29:05

阅读数 1936

评论数 3

使用sklearn优雅地进行数据挖掘

目录 1 使用sklearn进行数据挖掘   1.1 数据挖掘的步骤   1.2 数据初貌   1.3 关键技术 2 并行处理   2.1 整体并行处理   2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久化 6 回顾 7 总结 8 参考资料 ...

2016-09-12 18:16:21

阅读数 4100

评论数 2

使用sklearn做单机特征工程

目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换 ...

2016-09-12 16:53:25

阅读数 1593

评论数 0

使用sklearn进行集成学习——实践

目录 1 Random Forest和Gradient Tree Boosting参数详解 2 如何调参?   2.1 调参的目标:偏差和方差的协调   2.2 参数对整体模型性能的影响   2.3 一个朴实的方案:贪心的坐标下降法     2.3.1 Random Forest调...

2016-09-12 16:04:07

阅读数 1757

评论数 0

使用sklearn进行集成学习——理论

目录 1 前言 2 集成学习是什么? 3 偏差和方差   3.1 模型的偏差和方差是什么?   3.2 bagging的偏差和方差   3.3 boosting的偏差和方差   3.4 模型的独立性   3.5 小结 4 Gradient Boosting   4.1 拟合残差   4.2 拟合...

2016-09-12 15:02:19

阅读数 861

评论数 0

xgboost原理及应用

1.背景 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。 2.xgboost vs gbdt 说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址...

2016-09-09 16:29:16

阅读数 2127

评论数 0

Spark性能优化指南——高级篇

前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——...

2016-09-05 14:48:06

阅读数 1728

评论数 0

Spark性能优化指南——基础篇

前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大...

2016-09-05 11:40:31

阅读数 447

评论数 0

记录

http://blog.csdn.net/lsshlsw/article/details/49155087

2016-08-22 15:56:16

阅读数 342

评论数 0

国内maven仓库

http://maven.aliyun.com/nexus/content/groups/public

2016-08-22 14:14:14

阅读数 303

评论数 0

主题模型TopicModel:Unigram、LSA、PLSA主题模型详解

http://blog.csdn.net/pipisorry/article/details/42560693 主题模型历史: Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thom...

2016-08-02 14:46:58

阅读数 5746

评论数 0

Docker部署私有仓库

今天和大家聊聊Docker的私有仓库。 前段时间啊在CentOS6.x上玩Docker的私有仓库,由于https认证的原因,一直没有能解决,最后听群上的一朋友说,换成CentOS 7试试,也别说,最后实验成功啦! 所以我建议朋友在玩docker的私有仓库的时候,也能现在CentOS...

2016-06-02 17:44:56

阅读数 2506

评论数 0

ClassCastException Log4jLoggerFactory LoggerContex

http://my.oschina.net/u/249914/blog/192987  xception sending context initialized event to listener instance of class ch.qos.logback.ext.spring.w...

2016-05-25 11:46:00

阅读数 641

评论数 0

CaffeOnSpark in Ubuntu 15.04

check nvidia: lspci | grep -i nvidia check gcc: gcc --version install cuda: apt-get install build-essential ll /etc/X11/xorg.conf cd /etc/X11 mv xo...

2016-04-20 23:42:39

阅读数 1539

评论数 0

Ubuntu 14.04 LTS 版升级到 GCC 4.9.2

sudo add-apt-repository ppa:ubuntu-toolchain-r/test sudo apt-get update sudo apt-get install gcc-4.9 g++-4.9 (保留原来的4.8.2版本,便于快速切换) sudo updat...

2016-04-14 21:14:50

阅读数 545

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭