2016年06月_Shingle_

原创 Java中对于所有对象都通用的方法之——equals

Object：所有类的超类Object类是Java中所有类的超类，在Java中每个类都是由它扩展来的。尽管Object是一个具体的类，但是设计它主要是为了扩展。它所有的非final方法（equals、hasCode、toString、clone和fanalize）都有明确的通用约定（general contract），因为它们被设计成是要被覆盖（Override）的.equalsObject类中的e

2016-06-30 22:42:16 2615

原创策略模式（Strategy Pattern）

策略模式（Strategy Pattern）（对象行为型设计模式） ——鸭子模式定义了算法族，分别封装起来，让它们之间可以互相替换，此模式让算法的变化独立于使用算法的客户。设计原则弹性设计，可以维护，可以应付变化。找出应用中可能需要变化之处，把它们独立出来，不要和那些不需要变化的代码混在一起。（封装变化）针对接口编程，而不是针对实现编程。（“针对接口编程”，关键就在于多态。）(implem

2016-06-30 15:45:37 589

原创最大连续子数组和

题目描述给出一个长度为n的序列A1, A2,···, An, 求最大连续和。换句话说，要求找到1<=i<=j<=n, 使得Ai + Ai+1 + ···+ Aj 尽量大。蛮力枚举int MaxSubArray(int* A, int n){ int maxSum = a[0]; int currSum = 0; for(int I = 0; I < n; I++)

2016-06-26 21:31:13 738

原创 2-sum问题

2-sum问题问题描述输入一个整数数组和一个整数，在数组中查找一对数，满足他们的和正好是输入的那个整数。分析求解暴力求解法——从数组中任意选两个数，判定他们的和是否等于输入的那个数。时间复杂度O(n^2)。双层循环，检查所有元素对：public static int count(int[] a, int sum){ N = a.length(); int cnt = 0; f

2016-06-26 14:44:12 1085

原创栈、队列、背包的数组与链表实现

基础数据结构——数组和链表背包、队列和栈下压（LIFO）栈（能够动态调整数组大小的实现）下压堆栈（链表实现）达到了最优设计目标 - 它可以处理任意类型的数据； - 所需的空间总是和集合的大小成正比； - 操作所需的时间总是和集合的大小无关。先进先出队列背包本本文内容截自《Algorithms (Fourth Edition) 》

2016-06-23 15:05:48 877

原创回文串

输入一个字符串，求出其中最长的回文子串。子串的含义是：在原串中连续出现的字符串片段。回文的含义是：正着看和倒着看相同，如abba, yyxyy。判断字符串是否是一条回文串：（Java：）public static boolean isPalindrome(String s){ int N = s.length(); for(int I = 0; I <= N/2; I++)

2016-06-21 10:57:49 801

原创判断一个数是否是素数

根据定义，被1和它自身整除的、大于1的整数称为素数 (Java)public static boolean isPrime(int N){ if(N < 2) return false; for(int I=2; I*I <= N; I++) if(N % I == 0) return false; return true;}改进版： (C)int

2016-06-21 10:48:40 632

原创特征选择

特征选择1.相关性通过使用相关性，我们很容易看到特征之间的线性关系。这种关系可以用一条直线拟合。下面通过皮尔逊相关系数（Pearson correlation coefficient）来解释特征的相关性：下面每幅图上方的相关系数Cor(X1, X2)是计算出来的皮尔逊r值，从图中可以看出不同程度的相关性。 p值越高，我们越不能信任这个相关系数上图中，前三个具有高相关系数，我们可以选择把X1

2016-06-21 09:47:21 11220 4

原创二分查找（递归与非递归实现）

二分查找排序的重要意义之一，就是为检索带来方便。而在有序表中查找元素常常使用二分查找（Binary Search），有时也译为“折半查找”，它的基本思想就像是“猜数字游戏”：你在心里想一个不超过1000的正整数，我可以保证在10次之内猜到它——只要你每次告诉我猜的数比你想的大一些、小一些，或者正好猜中。猜的方法就是“二分”。首先我猜500，除了运气特别好正好猜中之外，不管你说“太大”还是“太小

2016-06-15 17:23:26 868

原创特征工程-降维

我们发现机器学习中最有趣的挑战往往会包含一些特征工程的内容。我们通过对问题本身的理解，小心谨慎的构造出一些特征，希望机器学习算法可以采纳。本次分享走相反的路线，降维—把无关或冗余的特征删掉。降维的原因：多余的特征会影响或误导学习器。并不是所有的机器学习方法都有这种情况（例如，支持向量机就喜欢高维空间），但大多数模型在维度较小的情况下比较安全。另一个反对高维特征空间的理由是，更多特征意味着更多参数

2016-06-15 15:44:29 1338

原创 Tfidf

Tfidf(词频-反转文档频率）TF代表统计部分，而IDF把权重折扣考虑了进去。>>> import scipy as sp>>> def tfidf(term, doc, docset):··· tf = float(doc.count(term) / sum(doc.count(term) for doc in docset)··· idf = math.log(floa

2016-06-13 15:59:40 939

Shingle_的博客