- 博客(37)
- 资源 (39)
- 收藏
- 关注
转载 朴素贝叶斯法(对于连续和离散属性的处理)
原文地址朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。举个例子,如果一种水果具有红,圆,直径大概4英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分
2016-09-24 12:18:23 26611 4
转载 广告推荐系统-逻辑回归问题导出
原文地址在广告推荐系统中,利用用户和广告之间的信息作为预测的特征预测的过程其实就是一个二分类的问题,主要就是判定一个用户对这个广告点击或者是不点击的概率是多少而这个过程是一个伯努利函数,整个过程是一个伯努利分布而在逻辑回归中主要是在线性回归的基础上利用了一个逻辑函数sigmod,而为什么要用这个函数,逻辑回归与线性回归之间的关系:
2016-09-19 21:59:59 771
转载 机器学习总结之逻辑回归Logistic Regression
原文地址逻辑回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下:回归问题:预测一个连续的输出。分类问题:离散输出,比如二分类问题输出0或1.逻辑回归常用于垃圾邮件分类,天气预测、疾病判断和广告投放。一、假设函数 因为是一个分类问题,所以我们希望有一个假设函数,使得:而sigmoid 函数
2016-09-19 21:48:56 6561
转载 聚类(2)——层次聚类 Hierarchical Clustering
聚类系列:聚类(序)----监督学习与无监督学习聚类(1)----混合高斯模型 Gaussian Mixture Model 聚类(2)----层次聚类 Hierarchical Clustering 聚类(2*)----k-means如何训练很大的码书聚类(3)----谱聚类 Spectral Clustering-------------
2016-09-19 21:09:30 1168
转载 LFM推荐的例子和代码
原文地址参考自邹博的博客! LFM:将评分矩阵分解为 item-feature 和 user-feature矩阵,feature数量事先人工确定,但是这两个矩阵参数未知,首先随机选取参数,再以此梯度下降迭代即可得到。 import pandas as pdimport numpy as npdef lfm(user_item,k,alpha = 0.01,lamda
2016-09-18 21:30:46 1205
转载 使用LFM(Latent factor model)隐语义模型进行Top-N推荐
原文地址最近在拜读项亮博士的《推荐系统实践》,系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结。隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应
2016-09-18 21:21:10 539
原创 深度优先和广度优先遍历迷宫
package didi;import java.util.Stack;/** * 迷宫问题{{1,1,0,1},{1,1,0,1},{0,1,1,1},{0,0,1,1}};{1,1,1,0,1},{1,0,1,0,1},{1,0,1,1,1},{1,1,0,1,1},{0,0,0,1,1}, * @author yanjie * */public clas
2016-09-18 17:42:10 2922
转载 决策树系列(五)——CART
原文地址CART,又名分类回归树,是在ID3的基础上进行优化的决策树,学习CART记住以下几个关键点:(1)CART既能是分类树,又能是分类树;(2)当CART是分类树时,采用GINI值作为节点分裂的依据;当CART是回归树时,采用样本的最小方差作为节点分裂的依据;(3)CART是一棵二叉树。接下来将以一个实际的例子对CART进行介绍:
2016-09-17 11:46:14 2820
原创 mysql分组后每组取前n条
#分组后每组取前n条#取前每组前2个,有并列第二的则都取如001学生有四门成绩90、80、70、60下面条件子查询是在a中每取一组,取b中统计,看满足b中条件的是否a.score b.score count90 Na 080 90 170 90 2 8060 90 3 80 70 可以看出符合条件的只有前两组如果第二大
2016-09-16 20:13:04 4696
原创 mysql创建 学生表、课程表、分数表、教师表
DROP TABLE IF EXISTS `db_school`.`Student`;create table Student( Sno varchar(20), Sname varchar(50), primary key (Sno)) ENGINE=InnoDB DEFAULT CHARSET=utf8;DROP TABLE IF EXISTS `db_school`.`Co
2016-09-16 19:30:33 32633 1
转载 【mysql】SQL嵌套子查询和相关子查询的执行过程有什么区别(推荐)
SQLServer子查询可以分为 相关子查询 和 嵌套子查询 两类。前提,假设Books表如下:类编号 图书名 出版社 价格--------------------------------------------------------2 c#高级应用 圣通出版 23.002 Jsp开发应用 机
2016-09-16 18:22:09 16930
转载 Deep Learning(深度学习)学习笔记整理
申明:本文非笔者原创,原文转载自:http://www.sigvc.org/bbs/thread-2187-1-3.html4.2、初级(浅层)特征表示 既然像素级的特征表示方法没有作用,那怎样的表示才有用呢? 1995 年前后,Bruno Olshausen和 David Fi
2016-09-14 20:44:57 1767
转载 KL 散度,相对熵
找了一些文章,感觉这篇是最好的,转载自:最好的解释链接KL散度常用于衡量两个概率分布之间的距离。根据香农定理,对一个概率分布 P(X) 进行最优编码方案编码的平均编码长度为:也就是说,如果对于概率分布 P(X) 的的编码为最优编码方案时: 现假设在同样的字符集上,存在另一个概率分布 Q(X) ,如果用概率分布 P(X) 的最优编码来为符合分布
2016-09-13 22:05:38 861
转载 LR 与 SVM 的相同和不同
原文地址在大大小小的面试过程中,多次被问及这个问题:“请说一下逻辑回归(LR)和支持向量机(SVM)之间的相同点和不同点”。第一次被问到这个问题的时候,含含糊糊地说了一些,大多不在点子上,后来被问得多了,慢慢也就理解得更清楚了,所以现在整理一下,希望对以后面试机器学习方向的同学有所帮助(至少可以瞎扯几句,而不至于哑口无言ha(*^-^*))。(1)为什么将LR和SVM放在一起来进行比较?
2016-09-13 13:00:09 9450 2
转载 快速用梯度下降法实现一个Logistic Regression 分类器
原文地址前阵子听说一个面试题:你实现一个logistic Regression需要多少分钟?搞数据挖掘的人都会觉得实现这个简单的分类器分分钟就搞定了吧?因为我做数据挖掘的时候,从来都是顺手用用工具的,尤其是微软内部的TLC相当强大,各种机器学习的算法都有,于是自从离开学校后就没有自己实现过这些基础的算法。当有一天心血来潮自己实现一个logistic regression的时候,
2016-09-13 12:07:52 956
转载 Spring4 MVC HelloWord实例
Spring4 MVC入门教程本教程是基于以下工具写的:MyEclipse 10Spring 4.0.3.RELEASE2- 预览应用程序执行流程Spring MVC DispatcherServlet 读取 xml 配置文件的原则:{servlet-name} ==> /WEB-INF/{servlet-name}-servlet.xm
2016-09-08 22:21:42 1094
原创 eclipse上传代码到github
1、 下载插件my_github- http://download.eclipse.org/egit/updates/2、 项目->team->Git->Next->创建一个本地仓库,路径自己改 ->finish3、 项目->team->Commit->填上commit message,全选->commit4、 项目->team->Remote->push (
2016-09-08 21:32:18 366
转载 Graham's Scan法求解凸包问题
原文地址概念凸包(Convex Hull)是一个计算几何(图形学)中的概念。用不严谨的话来讲,给定二维平面上的点集,凸包就是将最外层的点连接起来构成的凸多边型,它能包含点集中所有点的。严谨的定义和相关概念参见维基百科:凸包。这个算法是由数学大师葛立恒(Graham)发明的,他曾经是美国数学学会(AMS)主席、AT&T首席科学家以及国际杂技师协会(IJA)主席。(太汗
2016-09-08 11:25:31 452
转载 求两条直线(线段)的交点
原文地址如图,如何求得直线 AB 与直线 CD 的交点P?以上内容摘自《算法艺术与信息学竞赛》。思路就是利用叉积求得点P分线段DC的比,然后利用高中学习的定比分点坐标公式求得分点P的坐标。看不懂的可以去复习下 定比分点 的知识。[cpp] view plain copy
2016-09-08 11:05:45 5512
转载 最短路径—Dijkstra算法和Floyd算法
注意:以下代码 只是描述思路,没有测试过!! Dijkstra算法1.定义概览Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法,在很多专业课程中都作为基本内容有详细的介绍,如数据结构,图论,运筹学等等。注意该算
2016-09-07 16:26:44 548
转载 近一个月的面试总结(java)
本文是在学习中的总结,欢迎转载但请注明出处:http://blog.csdn.net/pistolove/article/details/46753275前言 打算换个工作,近一个月面试了不少的公司,下面将一些面试经验和思考分享给大家。另外校招也快要开始了,为在校的学生提供一些经验供参考,希望都能找到满意的工作。 刚开始面试的几家
2016-09-05 13:29:56 10228 5
转载 Java内存管理原理及内存区域详解
原文地址一、概述Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干不同的数据区域,这些区域都有各自的用途以及创建和销毁的时间。Java虚拟机所管理的内存将会包括以下几个运行时数据区域,如下图所示:下面就每一个区域进行阐述。二、运行时数据区域程序计数器程序计数器,可以看做是当前线程所执行的字节码的行号指示器。在虚拟机的
2016-09-05 12:18:35 408
转载 循环队列满队条件
严蔚敏的数据结构书上63页倒数第二段定义了判定队列空间是空还是满的方法:少用一个元素空间,判定队列呈“满”状态的标志是“队列头指针在队列尾指针的下一位置上(指环状的下一位置)” 意思就是说,循环队列留了一个元素空间,即当maxsize=100的时候,实际能存的数据只有99个,留一个不存的目的就是用来区分队列空还是满。因为空的时候q.rear=q.front,而满的时候就变成了(q.rear+
2016-09-03 19:25:37 7448
原创 硬链接与软链接
linux硬链接相当于一个文件有多个别名,实际上文件的inode相同(inode是唯一标识文件的)软链接相当于一个文件中内容有另外一个文件的地址,相当于有多个文件
2016-09-03 17:07:32 315
原创 python获取中文字符串长度
print len('哈哈'.decode('utf-8')) #unicode格式print len('哈哈') #utf-8格式
2016-09-02 22:43:02 21897 1
原创 使用ipython notebook读取GBK文件,进行split时无法分割
import codecsimport retext = codecs.open(u'text/text.txt','r','GBK','ignore').read()#text = text.encode("utf-8")if isinstance(text, unicode): print 'yes'sentencts = re.split('、|,|\。|\n|\r\n|!
2016-09-02 22:32:26 955
转载 基于大规模语料的新词发现算法
原文地址文 / 顾森 对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢? 这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个
2016-09-02 21:00:57 1650
转载 信息熵
原文地址“熵”是信息的不确定性度量“信息熵”是一个非常神奇的概念,它能够反映一个事件的结果平均会给你带来 多大的信息量。如果某个结果的发生概率为p,当你知道它确实发生了,你得到的信息量就被定义为-log(p)。p越小,你得到的信息量就越大。如果一颗骰 子的六个面分别是1、1、1、2、2、3,那么你知道了投掷的结果是1时可能并不会那么吃惊,它给你带来的信息量是-log(1/2),约为0.69
2016-09-02 20:57:36 974
原创 编辑距离算法(java)
package editDistance;/** * 编辑距离(删除,添加,替换 得到相等字符串所需次数)算法 * s = "eeba", t="abac" * 使用一个二维数组记录所需编辑次数(s为纵向,t为横向), 1 2 3 4 2 2 3 4 3 2 3 4 3 3 2 3 第一列为当t取一个字符a的时候,s依次为e、ee、eeb、eeba所需的编辑距离 其余的
2016-09-02 20:20:28 4500 2
原创 建造者模式
package builder;/** * 建造者模式 * 为什么需要建造者模式?当需要构建一个参数非常多的对象的时候, * 我们每次可能只需要对其中几个参数设值,如果使用构造函数则会造成参数泛滥 * 如果使用set方法多次设值在某些情况下会存在线程安全问题(因为是多个set语句,除非对其整体加锁) * @author yanjie * */public class Nutri
2016-09-02 17:23:13 312
原创 面试题43:n个骰子和出现可能值得概率(java)
package _43_touzi;import java.util.Arrays;/** * n个骰子和出现可能值得概率 * 使用一个长度为n的数组存放n个骰子的取值,递归n次即可 * @author yj * */public class Touzi { static int count = 0; public static void main(String[] arg
2016-09-01 22:05:35 2725
原创 面试题28:全排列(java)
package _28_permutation_combine;import java.util.Arrays;/** * 全排列 * @author root * */public class Permutation { public static void main(String[] args) { //int[] array = new int[] { 1, 2, 3};
2016-09-01 21:38:37 490
原创 面试题8:找到旋转数组的最小值(java)
package _8_minReverse;/** * 找到旋转数组的最小值 * 由于部分有序,借用二分查找思想.三个游标index1,index2,indexMid * @author yanjie * */public class MinReverse { static int[] data = {5,6,7,8,9,1,2,3,4}; //static int[] dat
2016-09-01 21:37:05 650
原创 java Integer 超过127时
package integer;public class IntegerTest { public static void main(String[] args) { // TODO Auto-generated method stub Integer a1 = 127, a2 = 127, b1 = 128, b2 = 128; System.out.println(a1==
2016-09-01 21:30:15 2358
转载 多元函数求极值问题
原文地址今天来讨论多元函数求极值问题,在Logistic回归用牛顿迭代法求参数会用到,所以很有必要把它研究清楚。 回想一下,一元函数求极值问题我们是怎样做的?比如对于凹函数,先求一阶导数,得,由于极值处导数一定为零,但是导数等于零的点不一定就有极值,比如。所以还需要进一步判断,对函数继续求二阶导得到,因为在驻点处二阶导数成立,所以在处取得极小值,
2016-09-01 15:24:19 3875
FatJardbgj.zip
2015-02-03
commons-dbcp-1.4和commons-pool-1.6驱动包下载(亲测可用)
2014-02-17
聚类测试数据
2016-08-15
ibernate3.x必须的包
2015-06-07
HibernateDemo
2015-06-07
hibernate3.2_core.rar
2015-06-06
jdic 64位的
2015-05-25
slf4j-api-1.6.4.jar
2015-04-25
commons-logging-1.2.jar下载
2015-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人