2016年09月_Yan456jie

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载朴素贝叶斯法（对于连续和离散属性的处理）

原文地址朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说，朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。举个例子，如果一种水果具有红，圆，直径大概4英寸等特征，该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定，然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。尽管是带着这些朴素思想和过于简单化的假设，但朴素贝叶斯分

2016-09-24 12:18:23 26611 4

转载广告推荐系统-逻辑回归问题导出

原文地址在广告推荐系统中，利用用户和广告之间的信息作为预测的特征预测的过程其实就是一个二分类的问题，主要就是判定一个用户对这个广告点击或者是不点击的概率是多少而这个过程是一个伯努利函数，整个过程是一个伯努利分布而在逻辑回归中主要是在线性回归的基础上利用了一个逻辑函数sigmod，而为什么要用这个函数，逻辑回归与线性回归之间的关系：

2016-09-19 21:59:59 771

转载机器学习总结之逻辑回归Logistic Regression

原文地址逻辑回归logistic regression，虽然名字是回归，但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下：回归问题：预测一个连续的输出。分类问题：离散输出，比如二分类问题输出0或1.逻辑回归常用于垃圾邮件分类，天气预测、疾病判断和广告投放。一、假设函数因为是一个分类问题，所以我们希望有一个假设函数，使得：而sigmoid 函数

2016-09-19 21:48:56 6561

转载聚类(2)——层次聚类 Hierarchical Clustering

聚类系列：聚类(序)----监督学习与无监督学习聚类(1)----混合高斯模型 Gaussian Mixture Model 聚类(2)----层次聚类 Hierarchical Clustering 聚类(2*)----k-means如何训练很大的码书聚类(3)----谱聚类 Spectral Clustering-------------

2016-09-19 21:09:30 1168

转载 LFM推荐的例子和代码

原文地址参考自邹博的博客！ LFM：将评分矩阵分解为 item-feature 和 user-feature矩阵，feature数量事先人工确定，但是这两个矩阵参数未知，首先随机选取参数，再以此梯度下降迭代即可得到。 import pandas as pdimport numpy as npdef lfm(user_item,k,alpha = 0.01,lamda

2016-09-18 21:30:46 1205

转载使用LFM（Latent factor model）隐语义模型进行Top-N推荐

原文地址最近在拜读项亮博士的《推荐系统实践》，系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用，在此做一个总结。隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的，近些年它们也被不断应用到其他领域中，并得到了不错的应

2016-09-18 21:21:10 539

原创深度优先和广度优先遍历迷宫

package didi;import java.util.Stack;/** * 迷宫问题{{1,1,0,1},{1,1,0,1},{0,1,1,1},{0,0,1,1}};{1,1,1,0,1},{1,0,1,0,1},{1,0,1,1,1},{1,1,0,1,1},{0,0,0,1,1}, * @author yanjie * */public clas

2016-09-18 17:42:10 2922

转载决策树系列（五）——CART

原文地址CART，又名分类回归树，是在ID3的基础上进行优化的决策树，学习CART记住以下几个关键点：（1）CART既能是分类树，又能是分类树；（2）当CART是分类树时，采用GINI值作为节点分裂的依据；当CART是回归树时，采用样本的最小方差作为节点分裂的依据；（3）CART是一棵二叉树。接下来将以一个实际的例子对CART进行介绍：

2016-09-17 11:46:14 2820

原创 mysql分组后每组取前n条

#分组后每组取前n条#取前每组前2个，有并列第二的则都取如001学生有四门成绩90、80、70、60下面条件子查询是在a中每取一组，取b中统计，看满足b中条件的是否a.score b.score count90 Na 080 90 170 90 2 8060 90 3 80 70 可以看出符合条件的只有前两组如果第二大

2016-09-16 20:13:04 4696

原创 mysql创建学生表、课程表、分数表、教师表

DROP TABLE IF EXISTS `db_school`.`Student`;create table Student( Sno varchar(20), Sname varchar(50), primary key (Sno)) ENGINE=InnoDB DEFAULT CHARSET=utf8;DROP TABLE IF EXISTS `db_school`.`Co

2016-09-16 19:30:33 32633 1

转载【mysql】SQL嵌套子查询和相关子查询的执行过程有什么区别(推荐)

SQLServer子查询可以分为相关子查询和嵌套子查询两类。前提，假设Books表如下：类编号图书名出版社价格--------------------------------------------------------2 c#高级应用圣通出版 23.002 Jsp开发应用机

2016-09-16 18:22:09 16930

转载 Deep Learning（深度学习）学习笔记整理

申明：本文非笔者原创，原文转载自：http://www.sigvc.org/bbs/thread-2187-1-3.html4.2、初级（浅层）特征表示既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？ 1995 年前后，Bruno Olshausen和 David Fi

2016-09-14 20:44:57 1767

转载 KL 散度，相对熵

找了一些文章，感觉这篇是最好的，转载自：最好的解释链接KL散度常用于衡量两个概率分布之间的距离。根据香农定理，对一个概率分布 P(X) 进行最优编码方案编码的平均编码长度为：也就是说，如果对于概率分布 P(X) 的的编码为最优编码方案时：现假设在同样的字符集上，存在另一个概率分布 Q(X) ，如果用概率分布 P(X) 的最优编码来为符合分布

2016-09-13 22:05:38 861

转载 LR 与 SVM 的相同和不同

原文地址在大大小小的面试过程中，多次被问及这个问题：“请说一下逻辑回归（LR）和支持向量机（SVM）之间的相同点和不同点”。第一次被问到这个问题的时候，含含糊糊地说了一些，大多不在点子上，后来被问得多了，慢慢也就理解得更清楚了，所以现在整理一下，希望对以后面试机器学习方向的同学有所帮助（至少可以瞎扯几句，而不至于哑口无言ha(*＾-＾*)）。（1）为什么将LR和SVM放在一起来进行比较？

2016-09-13 13:00:09 9450 2

转载快速用梯度下降法实现一个Logistic Regression 分类器

原文地址前阵子听说一个面试题：你实现一个logistic Regression需要多少分钟？搞数据挖掘的人都会觉得实现这个简单的分类器分分钟就搞定了吧？因为我做数据挖掘的时候，从来都是顺手用用工具的，尤其是微软内部的TLC相当强大，各种机器学习的算法都有，于是自从离开学校后就没有自己实现过这些基础的算法。当有一天心血来潮自己实现一个logistic regression的时候，

2016-09-13 12:07:52 956

转载 Spring4 MVC HelloWord实例

Spring4 MVC入门教程本教程是基于以下工具写的：MyEclipse 10Spring 4.0.3.RELEASE2- 预览应用程序执行流程Spring MVC DispatcherServlet 读取 xml 配置文件的原则：{servlet-name} ==> /WEB-INF/{servlet-name}-servlet.xm

2016-09-08 22:21:42 1094

原创 eclipse上传代码到github

1、下载插件my_github- http://download.eclipse.org/egit/updates/2、项目->team->Git->Next->创建一个本地仓库，路径自己改 ->finish3、项目->team->Commit->填上commit message，全选->commit4、项目->team->Remote->push （

2016-09-08 21:32:18 366

转载 Graham's Scan法求解凸包问题

原文地址概念凸包(Convex Hull)是一个计算几何（图形学）中的概念。用不严谨的话来讲，给定二维平面上的点集，凸包就是将最外层的点连接起来构成的凸多边型，它能包含点集中所有点的。严谨的定义和相关概念参见维基百科：凸包。这个算法是由数学大师葛立恒(Graham)发明的，他曾经是美国数学学会(AMS)主席、AT&T首席科学家以及国际杂技师协会(IJA)主席。（太汗

2016-09-08 11:25:31 452

转载求两条直线（线段）的交点

原文地址如图，如何求得直线 AB 与直线 CD 的交点P？以上内容摘自《算法艺术与信息学竞赛》。思路就是利用叉积求得点P分线段DC的比，然后利用高中学习的定比分点坐标公式求得分点P的坐标。看不懂的可以去复习下定比分点的知识。[cpp] view plain copy

2016-09-08 11:05:45 5512

转载最短路径—Dijkstra算法和Floyd算法

注意：以下代码只是描述思路，没有测试过！！ Dijkstra算法1.定义概览Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法，用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展，直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法，在很多专业课程中都作为基本内容有详细的介绍，如数据结构，图论，运筹学等等。注意该算

2016-09-07 16:26:44 548

转载近一个月的面试总结(java)

本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。刚开始面试的几家

2016-09-05 13:29:56 10228 5

转载 Java内存管理原理及内存区域详解

原文地址一、概述Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干不同的数据区域，这些区域都有各自的用途以及创建和销毁的时间。Java虚拟机所管理的内存将会包括以下几个运行时数据区域，如下图所示：下面就每一个区域进行阐述。二、运行时数据区域程序计数器程序计数器，可以看做是当前线程所执行的字节码的行号指示器。在虚拟机的

2016-09-05 12:18:35 408

原创配置notepad++运行java

1、下载notepad++，点击插件->Plugin Manager2、

2016-09-03 20:58:10 6014

转载循环队列满队条件

严蔚敏的数据结构书上63页倒数第二段定义了判定队列空间是空还是满的方法：少用一个元素空间，判定队列呈“满”状态的标志是“队列头指针在队列尾指针的下一位置上（指环状的下一位置）” 意思就是说，循环队列留了一个元素空间，即当maxsize=100的时候，实际能存的数据只有99个，留一个不存的目的就是用来区分队列空还是满。因为空的时候q.rear=q.front，而满的时候就变成了(q.rear+

2016-09-03 19:25:37 7448

原创硬链接与软链接

linux硬链接相当于一个文件有多个别名，实际上文件的inode相同(inode是唯一标识文件的)软链接相当于一个文件中内容有另外一个文件的地址，相当于有多个文件

2016-09-03 17:07:32 315

原创 python获取中文字符串长度

print len('哈哈'.decode('utf-8')) #unicode格式print len('哈哈') #utf-8格式

2016-09-02 22:43:02 21897 1

原创使用ipython notebook读取GBK文件，进行split时无法分割

import codecsimport retext = codecs.open(u'text/text.txt','r','GBK','ignore').read()#text = text.encode("utf-8")if isinstance(text, unicode): print 'yes'sentencts = re.split('、|，|\。|\n|\r\n|！

2016-09-02 22:32:26 955

转载基于大规模语料的新词发现算法

原文地址文 / 顾森　　对中文资料进行自然语言处理时，我们会遇到很多其他语言不会有的困难，例如分词——汉语的词与词之间没有空格，那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已／结婚／的／和／尚未／结婚／的”，还是“已／结婚／的／和尚／未／结婚／的”呢？　　这就是所谓的分词歧义难题。不过，现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里，还有一个

2016-09-02 21:00:57 1650

转载信息熵

原文地址“熵”是信息的不确定性度量“信息熵”是一个非常神奇的概念，它能够反映一个事件的结果平均会给你带来多大的信息量。如果某个结果的发生概率为p，当你知道它确实发生了，你得到的信息量就被定义为-log(p)。p越小，你得到的信息量就越大。如果一颗骰子的六个面分别是1、1、1、2、2、3，那么你知道了投掷的结果是1时可能并不会那么吃惊，它给你带来的信息量是-log(1/2)，约为0.69

2016-09-02 20:57:36 974

原创编辑距离算法(java)

package editDistance;/** * 编辑距离(删除，添加，替换得到相等字符串所需次数)算法 * s = "eeba", t="abac" * 使用一个二维数组记录所需编辑次数(s为纵向，t为横向)， 1 2 3 4 2 2 3 4 3 2 3 4 3 3 2 3 第一列为当t取一个字符a的时候，s依次为e、ee、eeb、eeba所需的编辑距离其余的

2016-09-02 20:20:28 4500 2

原创建造者模式

package builder;/** * 建造者模式 * 为什么需要建造者模式？当需要构建一个参数非常多的对象的时候， * 我们每次可能只需要对其中几个参数设值，如果使用构造函数则会造成参数泛滥 * 如果使用set方法多次设值在某些情况下会存在线程安全问题（因为是多个set语句，除非对其整体加锁） * @author yanjie * */public class Nutri

2016-09-02 17:23:13 312

原创面试题43：n个骰子和出现可能值得概率(java)

package _43_touzi;import java.util.Arrays;/** * n个骰子和出现可能值得概率 * 使用一个长度为n的数组存放n个骰子的取值，递归n次即可 * @author yj * */public class Touzi { static int count = 0; public static void main(String[] arg

2016-09-01 22:05:35 2725

原创面试题28：全排列(java)

package _28_permutation_combine;import java.util.Arrays;/** * 全排列 * @author root * */public class Permutation { public static void main(String[] args) { //int[] array = new int[] { 1, 2, 3};

2016-09-01 21:38:37 490

原创面试题8：找到旋转数组的最小值(java)

package _8_minReverse;/** * 找到旋转数组的最小值 * 由于部分有序，借用二分查找思想.三个游标index1,index2,indexMid * @author yanjie * */public class MinReverse { static int[] data = {5,6,7,8,9,1,2,3,4}; //static int[] dat

2016-09-01 21:37:05 650

原创 java Integer 超过127时

package integer;public class IntegerTest { public static void main(String[] args) { // TODO Auto-generated method stub Integer a1 = 127, a2 = 127, b1 = 128, b2 = 128; System.out.println(a1==

2016-09-01 21:30:15 2358

转载多元函数求极值问题

原文地址今天来讨论多元函数求极值问题，在Logistic回归用牛顿迭代法求参数会用到，所以很有必要把它研究清楚。回想一下，一元函数求极值问题我们是怎样做的？比如对于凹函数，先求一阶导数，得，由于极值处导数一定为零，但是导数等于零的点不一定就有极值，比如。所以还需要进一步判断，对函数继续求二阶导得到，因为在驻点处二阶导数成立，所以在处取得极小值，

2016-09-01 15:24:19 3875

commons-collections-3.2.1

commons-collections-3.2.1 封装了好用的集合，是对基础集合的扩展

2015-04-25

commons-io-2.4.jar

Commons项目中用来处理IO的一些工具类包。很多项目都有用到commons io

2015-04-25

vimcdoc 中文帮助文档

vimcdoc vim vi 注意需放置到vim74下中文帮助文档亲测可用

2015-02-07

FatJardbgj.zip

fat eclipse插件打包jar 最好用link方法安装，用原生的eclipse，有的ee(集成了javaee各种技术的)版本安装不上，se版本都可以

2015-02-03

slf4j-1.5.6.tar.zip

SLF4J是一个用于日志系统的简单Facade，很有用，可以直接用作输出记录文件

2015-02-03

commons-lang3-3.3.2.jar

commons-lang java常用方法集合 apache上面的一个项目，封装了一些常用的java方法，提高开发效率

2015-02-03

gson-2.3.jar

json gson json处理 java包 google根据json规范开发的一个包，很好用

2015-02-03

jsoup-1.7.3.jar

jsoup jar包 html解析很好的html解析工具，学习好以后很容易从网上爬取数据

2015-02-03

dom4j-1.6.1.jar xml解析工具包 java

dom4j-1.6.1.jar xml解析工具包 java,导入即可使用，网上有很多方法

2015-02-03

PyDev eclipse上使用python的插件

PyDev eclipse上使用python的插件，安装方法网上很多，最好选用Link方式的

2015-02-03

Matplotlib-1.4.0 chm格式帮助文档

Matplotlib-1.4.0 chm格式帮助文档，如若打开空白，请将属性解锁。选中文档，右键，属性，解除锁定

2015-02-03

sublime text 3破解工具

解压后放入sublime text 3根文件夹，点击保存，提示成功即可。经测试3065版本可行

2015-01-31

commons-dbcp-1.4和commons-pool-1.6驱动包下载（亲测可用）

2014-02-17

mmseg4j-1.8.5 分词压缩包

mmseg4j-1.8.5 分词压缩包mmseg4j-1.8.5 分词压缩包

2017-03-05

图像分类数据

数据为从101_ObjectCategories中选出的部分数据，作为图像分类的测试数据

2016-08-26

聚类测试数据

two_cluster、three_cluster、five_cluster为不同簇数的点集，适用于Kmeans聚类 spiral、Twomoons、ThreeCircles分别为螺旋分布、月牙分布、环形分布数据集。

2016-08-15

重新编译的hadoop-core-1.0.2.jar

Hadoop Failed to set permissions of path 错误处理替换包

2016-04-07

谢菲尔德大学matlab遗传算法工具包

谢菲尔德大学matlab遗传算法工具包，导入matlab即可用

2015-07-27

ibernate3.x必须的包

ibernate3.x必须的包,具体参见 http://blog.csdn.net/yan456jie/article/details/46392765

2015-06-07

HibernateDemo

Hibernate入门小例子（自带jar包），需安装好mysql设置root密码为123456 并建立名为hibernate的数据库，这些在配置文件中可以看到

2015-06-07

hibernate3.2_core.rar

hibernate3.x所需的核心包，注意：不包含数据库驱动包mysql-connector-java-5.1.29-bin.jar，注释包，hql语言解释包等，具体参见http://blog.csdn.net/yan456jie/article/details/46392765

2015-06-06

jdic 64位的

jdic目前提供了本机 Web 浏览器（Internet Explorer 或 Mozilla）支持、系统托盘支持、文件扩展集成、应用程序启动与打印和其他桌面特性。

2015-05-25

mentohust_0.3.4-1_i386.deb

mentohust_0.3.4-1_i386.deb 32位 ubuntu系统用的

2015-05-20

slf4j-api-1.6.4.jar

简单日记门面(simple logging Facade for java)SLF4J是为各种loging APIs提供一个简单统一的接口，从而使得最终用户能够在部署的时候配置自己希望的loging APIs实现。

2015-04-25

junit-4.1.jar

junit-4.1.jar 测试包junit-4.1.jar

2015-04-25

commons-logging-1.2.jar commons封装的日志包。commons-logging.jar包是使用spring的必备包。本包为服务器端程序的日志处理提供API以使用多种不同的日志系统。果你希望你的日志记录与实现无关，你可以使用Apache Commons Logging，它使用抽象的API,这些API都是实现无关的，可以让你在不同的日志记录实现之间切换，而不需要修改你的代码。

2015-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

commons-collections-3.2.1

commons-io-2.4.jar

vimcdoc 中文帮助文档

FatJardbgj.zip

slf4j-1.5.6.tar.zip

commons-lang3-3.3.2.jar

gson-2.3.jar

jsoup-1.7.3.jar

libsvm-3.20.zip

dom4j-1.6.1.jar xml解析工具包 java

PyDev eclipse上使用python的插件

Matplotlib-1.4.0 chm格式帮助文档

sublime text 3破解工具

android+api+教程

数据结构考研试题1800题集锦（含答案）

commons-dbcp-1.4和commons-pool-1.6驱动包下载（亲测可用）

java连接mysql的驱动包（包含源码文档等，亲测可用）

java实用课件教程.rar

1990-2010软件设计师真题及答案.zip

mmseg4j-1.8.5 分词压缩包

图像分类数据

聚类测试数据

hadoop-eclipse-plugin-1.2.1

重新编译的hadoop-core-1.0.2.jar

谢菲尔德大学matlab遗传算法工具包

hibernate验证文件

ibernate3.x必须的包

HibernateDemo

hibernate3.2_core.rar

jdic 64位的

mentohust_0.3.4-1_i386.deb

json.jar 包

slf4j-api-1.6.4.jar

log4j-1.2.17.jar

spring-2.5.jar

junit-4.1.jar

commons-logging-1.2.jar下载

空空如也