- 博客(225)
- 资源 (13)
- 收藏
- 关注
转载 Java中8种基本数据类型及其默认值
Java语言中有8种基本数据类型,基本情况汇总如下:Java中8种基本数据类型总结序号数据类型大小/位封装类默认值可表示数据范围1byte(位)8Byte0
2017-06-05 10:55:47 2475
转载 Softmax回归
Contents [hide]1 简介2 代价函数3 Softmax回归模型参数化的特点4 权重衰减5 Softmax回归与Logistic 回归的关系6 Softmax 回归 vs. k 个二元分类器7 中英文对照8 中文译者简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标
2016-11-18 15:10:52 1379
转载 协同过滤
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最
2016-10-21 09:26:28 1444
转载 使用sklearn做单机特征工程
1 特征工程是什么?有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触
2016-10-16 18:25:17 1415
转载 欢迎使用CSDN-markdown编辑器
一、问题的提出 经典计量经济模型常用到的数据有三种类型: 1.时间序列数据(time-series data) ,亦即单一变量按时间的先后次序产生的数据。 2.截面数据(cross-sectional data) ,亦即多个变量在同一个时间点(截面空间)上产生的数据。 3.平行/面板数据(panel data/time-series cross-section data) ,也称时间序列截
2016-10-12 17:08:54 699
转载 [python] 时间序列分析之ARIMA
1 时间序列与时间序列分析在生产和科学研究中,对某一个或者一组变量 x(t) 进行观察测量,将在一系列时刻 t1,t2,⋯,tn 所得到的离散数字组成的序列集合,称之为时间序列。 时间序列分析是根据系统观察得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。时间序列分析常用于国民宏观经济控制、市场潜力预测、气象预测、农作物害虫灾害预报等各个方面。2 时间序列建
2016-10-08 15:13:59 12291 4
转载 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标
2016-09-20 22:02:52 1898
转载 机器学习基石笔记1——在何时可以使用机器学习(1)
转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html目录机器学习基石笔记1——在何时可以使用机器学习(1)机器学习基石笔记2——在何时可以使用机器学习(2)机器学习基石笔记3——在何时可以使用机器学习(3)(修改版)机器学习基石笔记4——在何时可以使用机器学习(4)机器学习基石笔记5——为什么机器可以学习(1)
2016-09-20 09:24:02 537
原创 最近打算好好整理整理知识,这里列出可参考的博客列表
1.感觉比较清晰大气的 http://www.powerxing.com/logistic-regression-in-python/
2016-09-14 10:29:29 428
转载 Factorization Machines 学习笔记(四)学习算法
Factorization Machines 学习笔记(四)学习算法标签: FMFactorizationMachine稀疏特征SGDALS2014-10-28 10:22 9370人阅读 评论(7) 收藏 举报 分类:数据挖掘(34) 机器学习(36) 版权声明:本文为博主原创文章,未经博主允许不得转载。
2016-09-10 18:51:31 2436
转载 Factorization Machines 学习笔记(三)回归和分类
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分
2016-09-10 18:49:19 1102
转载 Factorization Machines 学习笔记(二)模型方程
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分
2016-09-10 18:48:19 456
转载 Factorization Machines 学习笔记(一)预测任务
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘法(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和
2016-09-10 18:47:49 761
转载 简单易学的机器学习算法——因子分解机(Factorization Machine)
一、因子分解机FM的模型 因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。1、因子分解机FM的优势 对于因子分解机FM来说,最大的特点是对于稀疏的数据具有很好的学习能力。现实中稀疏的数据很多,例如作者所举的推荐系统的例子便是一个很直观的具有稀疏特点的例子。2、因子分解机F
2016-09-10 18:11:19 4434
转载 远程访问jupyter notebook
ipython notebook是一个基于浏览器的python数据分析工具,使用起来非常方便,具有极强的交互方式和富文本的展示效果。jupyter是它的升级版,它的安装也非常方便,一般Anaconda安装包中会自带。安装好以后直接输入jupyter notebook便可以在浏览器中使用。但是它默认只能在本地访问,如果想把它安装在服务器上,然后在本地远程访问,则需要进行如下配置:1. 登
2016-09-07 23:19:20 26707 8
转载 NumPy Basics: Arrays and Vectorized Computation
1. NumPy Basics: Arrays and Vectorized ComputationNumPy 是 Numerical Python 的简称,是高性能计算和数据分析的基础包。本书中几乎所有高级工具都是建立在它的基础之上,下面是它所能做的一些事情:ndarray,快速和节省空间的多维数组,提供数组化的算术运算和高级的 广播 功能。使用标准数学函数对整个数组的数据进
2016-09-05 09:44:43 859
转载 线性判别分析(LDA), 主成分分析(PCA)
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给
2016-09-02 20:18:54 791
转载 强大的矩阵奇异值分解(SVD)及其应用
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy前言: 上一次写了关于PCA与LDA的文章
2016-09-02 20:16:59 670
原创 逻辑回归:从入门到精通
这里推荐一个非常经典的逻辑回归教程,这个人可是韩家炜的学生,好好膜拜一下~~~ 文章链接为:http://www.tianyancha.com/research/LR_intro.pdf
2016-09-02 18:54:12 2834
转载 深入FFM原理与实践
深入FFM原理与实践del2z, 大龙 ·2016-03-03 09:00FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FF
2016-09-02 18:44:08 606
转载 click through rate prediction
click through rate prediction包括内容如下图: 使用直接估计法,置信区间置信率的估计:1.使用二项分布直接估计p(0.04p^0.06)=∑0.04n≤k≤0.06n(nk)0.05k0.95n−kp(0.04123456
2016-09-02 18:37:16 819
转载 Java并发编程:volatile关键字解析
Java并发编程:volatile关键字解析 volatile这个关键字可能很多朋友都听说过,或许也都用过。在Java 5之前,它是一个备受争议的关键字,因为在程序中使用它往往会导致出人意料的结果。在Java 5之后,volatile关键字才得以重获生机。 volatile关键字虽然从字面上理解起来比较简单,但是要用好不是一件容易的事情。由于volatile关键字是与Java
2016-08-31 18:58:20 336
原创 GBDT的深度理解
1. 基础知识 首先需要掌握以下的基础知识: 1)独立性检验:http://www.cnblogs.com/zhangchaoyang/articles/2642032.html 。。。。
2016-08-24 20:51:29 2068 1
原创 分布式多任务调度的初探
一、Quartz在java编程中,常用的比较出名的任务调度工具是Quartz,该工具提供丰富的接口来帮助我们实现基于Cron Expression的定时任务以及按照固定频率执行任务等。在运行过程中,该工具会创建线程池,所有任务会在线程池中运行,注意默认的线程池中线程数量有限,仅有10个线程,可以通过程序修改线程池的容量。当提交的job多于线程池的容量的时候,多余的job会在等待队列里进行等
2016-08-23 19:30:24 4042
转载 各种开源协议介绍 BSD、Apache Licence、GPL V2 、GPL V3 、LGPL、MIT
现今存在的开源协议很多,而经过Open Source Initiative组织通过批准的开源协议目前有58种(http://www.opensource.org/licenses /alphabetical)。我们在常见的开源协议如BSD, GPL, LGPL,MIT等都是OSI批准的协议。如果要开源自己的代码,最好也是选择这些被批准的开源协议。这里我们来看四种最常用的开源协议及它们的
2015-09-02 08:57:21 613
转载 Gensim做中文主题模型(LDA)
中文语料来自http://www.sogou.com/labs/dl/c.html 的精简版(tar.gz格式) 24Mjerry@hq:/u01/jerry/Reduced$ lsC000008 C000010 C000013 C000014 C000016 C000020 C000022 C000023 C000024各个文件夹的分类:C000007 汽
2015-08-27 16:03:02 6829
转载 SVD奇异值分解
SVD分解SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。基础知识1
2015-08-27 11:06:54 544
转载 Clustering text documents using k-means
源文档位置:http://scikit-learn.org/stable/auto_examples/document_clustering.htmlThis is an example showing how the scikit-learn can be used to cluster documents by topics using a bag-of-words approach.
2015-08-25 11:11:40 1163
转载 机器学习算法与Python实践之(五)k均值聚类(k-means)
机器学习算法与Python实践之(五)k均值聚类(k-means)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇
2015-08-25 10:54:04 1258
转载 python中做层次聚类,使用scipy.cluster.hierarchy.fclusterdata方法
python机器学习包里面的cluster提供了很多聚类算法,其中ward_tree实现了凝聚层次聚类算法。但是没有看明白ward_tree的返回值代表了什么含义,遂决定寻找别的实现方式。经过查找,发现scipy.cluster.hierarchy.fclusterdata能够实现层次聚类。有关这个方法的介绍在:http://docs.scipy.org/doc/scipy/ref
2015-08-25 10:42:58 9684
原创 sklearn学习代码
from sklearn.ensemble import RandomForestClassifierimport pandas as pdfrom numpy import *import typestrain = pd.read_csv("data/train.csv")test = pd.read_csv("data/test.csv")#train["T2_V12"],_ =
2015-08-24 19:54:42 3273
转载 python数据挖掘领域工具包
Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优
2015-08-24 16:59:21 975
原创 C#重构经典全面汇总
C#重构经典全面汇总1、 封装集合概念:本文所讲的封装集合就是把集合进行封装,只提供调用端需要的接口。正文:在很多时候,我们都不希望把一些不必要的操作暴露给调用端,只需要给它所需要的操作或数据就行,那么做法就是封装。这个重构在微软的代码库也经常遇到。比如最经典的属性对字段的封装就是一个很好的例子,那么下面我们将看到对集合的封装,如下代码所示,调用端只需要一个集合的信息,而我们则提供了
2015-08-13 10:04:24 6008 2
转载 在线学习(Online Learning)
原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。 假设样例按照到来的先后顺序依次定义为。X为样本特征,y为类别标签。我们的任务是到来一个样
2014-12-24 21:39:27 2235
转载 IIS8.0, IIS7.0提示“请求筛选模块被配置为拒绝包含双重转义序列的请求”处理办法
请求筛选模块被配置为拒绝包含双重转义序列的请求。HTTP 错误 404.11 - Not Found 解决办法: 1.单击 开始 。 在 开始搜索 框中, 键入 Notepad. 右击 记事本 , 然后单击 作为管理员运行 。 注意 如果提示用于管理员密码或用于确认, 键入密码, 或单击 继续 。 2.在 文件 菜单上, 单击 打开 。 在 文件名
2014-11-21 09:54:32 2208
转载 CPU的大端模式(big endian)和小端(little endian)模式
作为一个计算机相关专业的人,我们应该在计算机组成中都学习过什么叫Little endian 和Big endian。Little endian 和Big endian 是CPU 存放数据的两种不同顺序。对于整型、长整型等数据类型,Big endian 认为第一个字节是最高位字节(按照从低地址到高地址的顺序存放数据的高位字节到低位字节);而Little endian 则相反,它认为第一个字节是最
2014-11-18 14:27:07 997
原创 新服务器到来的几个参数查询命令-CentOS版
1.硬盘信息:df -h 2.free -m 按兆为单位输出内存的已用,未用,总共等结果3.cat /proc/cpuinfo 输出各处理器的详细信息4.cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c 8 Intel(R) Xeon(R) CPU E5410 @ 2.33GHz
2014-07-23 12:52:58 819
转载 Leetcode: Max Points on a Line .
题目:Given n points on a 2D plane, find the maximum number of points that lie on the same straight line. 解决:[java] view plaincopyimport java.util.HashMap; impo
2014-05-23 22:48:18 1030 1
转载 2014-04-19编程之美初赛题目及答案解析
第一题:描述一般来说,我们采用针孔相机模型,也就是认为它用到的是小孔成像原理。在相机坐标系下,一般来说,我们用到的单位长度,不是“米”这样的国际单位,而是相邻像素的长度。而焦距在相机坐标系中的大小,是在图像处理领域的一个非常重要的物理量。假设我们已经根据相机参数,得到镜头的物理焦距大小(focal length),和相机胶片的宽度(CCD width),以及照片的横
2014-04-19 16:44:15 4917 1
android 无线打印实现源代码 附带send2Printer
2012-08-21
send2printer可以直接使用,支持第三方开发
2012-08-21
VMware创建共享磁盘(图行-详细)
2012-03-15
Ubuntu_Hadoop部署笔记
2012-02-22
Flex+Lcds+FB3+Java+MyEclipes7.5
2010-11-27
JDK_API(中文最新版).CHM
2010-08-06
matlab函数帮助文档
2010-08-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人