- 博客(29)
- 资源 (2)
- 收藏
- 关注
原创 第二个面试整理
昨天完成了第二次面试,是数据挖掘工作的一个面试吧,新闻推荐算法岗位,安全大楼还真不好找。 面试题一道二叉树层序遍历的反转,然后就是实际文档如何提取成特征,手写kmeans(汗,都是手写这个,我还每次都是根据算法思路重写。。),最后是实际的推荐引擎构建,从备选算法结合实际(硬件,需求)条件选最恰大的一个并说明理由,和上次面试深度学习OCR一样让设计OCR引擎。两次面试,都是从离职后主动预约我面试的五
2016-04-26 15:53:08 481
原创 一点建议,一点正能量
1.努力分早晚,越早越好。 起跑不同,再追要付出更多的努力和辛苦,落后了,你努力,别人可能更努力的。虽然多读个硕士,但是本科同学薪资可能已经是你的1.5倍了。2.Sooner is better than never 不要和太遥远的目标做比较,作为激励目标就可以了,而且效果会更好。再晚,开始努力织网也比临渊羡鱼要强。3.努力是要长久的坚持。 有时候一段时间的特别努力,会获得极大提升,但是长久的
2016-04-26 13:26:32 401
原创 二分查找(java)
1.注意对输入参数的正确性判断 2. int middle = left + ((right - left) >> 1),有效防止越界public class BinarySearch { public int binary_search(int array[],int len , int value) { if(array==null||array.length
2016-04-24 23:31:54 424
原创 动态规划(java)
问题一:最大子组和问题 子组中的元素可能是正负或0,思路: 最大子组和就是所有可能的子组和中最大的,那么可能比较大的首先有一个初始值(0),然后如果有比初始值大的子组和,就用来替代当前的最大子组和,直到遍历结束再也没有比当前子组和更大的。 当子组和为负的时候,肯定不是我们期望的最大子组和的一部分,因为负的累积值和后续的子组元素的和,肯定小于后续子组元素的和。这时可以排除该子组和的元素,从使累计
2016-04-24 16:06:10 314
原创 java内存回收机制
首先是一些java,jvm内存的分布情况,然后是具体每块区域的内存回收机制。 java不同于c++等语言由计算机直接编译文件,java编译class文件后生成bytecode文件,然后由不同平台的jvm进行bytecode的编译,所以java可以实现跨平台。 jvm类似于一个虚拟的计算机系统,有虚拟的硬件,寄存器,堆,栈等。 jvm的内存区划分为,栈(虚拟机栈,本地栈),堆,方法区(永久区)
2016-04-24 14:18:31 404
原创 scala学习
学习资料一,做的比较炫酷的文档,看着很舒服 http://zh.scala-tour.com/#/funtional-contents 下面是一个为java程序员编写的scala入门教程,内容不多但是可以用来快速了解scala吧 原帖地址:http://dataunion.org/14967.html,这篇文章是英文原稿的翻译,google上还有中英文对照稿,有兴趣的也可以看下: 本文是《A
2016-04-23 23:24:38 3305
转载 [java实现]找一个数组的最大和的连续子数组(时间复杂度 O(n))
收藏一下,请直接点击原帖地址:http://blog.csdn.net/hpf911/article/details/9275583 这是《剑指Offer》中的一道题目,数组中的元素可能是正负,所以连续的子组求和,会变大也可能变小,解题时首先要求当前的和(初始值为0)和下一个元素求和后,如果是负的,那么重新置0和下下个继续求和,首先要找到使和增加的正的元素。然后有了当前最大的和后,纪录下来;继续累
2016-04-23 23:15:30 3665
原创 设计模式部分整理
1.Builder模式 当对象的属性比较多,过于复杂时,首先要把可以聚合为一个对象的属性作为一个对象,然后这些和同一层级的属性作为这个类的属性。比如定义了一个模版,里面有检测器,取值器,又有设备属性等,那么这些同一层级的作为第一个对象的属性(也就是模版的),然后检测器等对象各自再有自己的属性(比如:图像啊,文本啊,怎么取,参考判断逻辑,而其中的参考判断逻辑又可以定义成一个对象,再单独对它的各个属性
2016-04-23 18:52:48 306
转载 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
尊重原创,原作者标注了未经允许不能转载,所以在这里留存一下,作为备份吧,粘贴到印象笔记里没准以后整理时就贴到博客里了,还是收藏在博客里好了。 http://blog.csdn.net/xianlingmao/article/details/7919597
2016-04-23 12:45:54 403
原创 JVM内存GC机制
一些自己印象笔记收录的资料,这里先留存链接,等闲下来整理成文。 编程时注意的一些小技巧,配合GC,及早释放无用对象占有的内存,或者减少内存的使用,比如无用对象的置null,少用new对象,StringBuffer,容器大小给予一定初始化等。 转自:http://blog.csdn.net/tutngfei1129287460/article/details/7383480(这个也不是原帖,转载者
2016-04-23 12:41:38 306
转载 LibSVM使用指南
本文包含以下几个部分:支持向量机–SVM简介 LibSVM的安装 LibSVM的使用 LibSVM参数调优 Java版LibSVM库函数的调用 SVM简介在进行下面的内容时我们认为你已经具备了数据挖掘的基础知识。SVM是新近出现的强大的数据挖掘工具,它在文本分类、手写文字识别、图像分类、生物序列分析等实际应用中表现出非常好的性能。SVM属于监督学习算法,样本以属性向量的形式提供,所以输入空
2016-04-22 17:50:38 480
转载 支持向量机(SVM)基础
转自:http://leftnoteasy.cnblogs.com, 一、线性分类器:首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线)image 假如说,我们令黑色的点 = -1, 白色的点 = +1,直线f(x) = w.x + b,这儿的x、w是向量,其实写成这种形
2016-04-22 16:47:06 239
原创 真的想?那就去做
因为2015年原单位实习转正时给的待遇不错,加上组里团队氛围非常融洽,我最小,老大哥们对我都很照顾(当然人际关系是相互的),一直很不舍这种生活。可是公司的图像算法项目并没有那么多,也没有那么难,或者说挑战不多;而当时决定留下一个重要原因是sku这块CEO想要做大,后期说会有数据挖掘方面的项目,我有兴趣也可以跟一下。结果并没有这种项目,而且看2016年也不太可能有。而我却每天完成工作后,有闲暇就会看一
2016-04-22 16:29:35 376
转载 Sqoop详细介绍包括:sqoop命令,原理,流程
一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。三 Sqoop 命令Sqoop大约有13种命
2016-04-22 15:14:15 1060
原创 数据挖掘相关资料收集(持续更新)
1.ChinaKDD,数据挖掘研究院,强烈推荐,里面有很多很好的学习资料 http://www.chinakdd.com/article-oyU85v018dQL0Iu.html
2016-04-21 18:58:09 363
转载 常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内大点的公
2016-04-21 18:55:55 387
原创 一些linux指令
将印象笔记以前用过纪录的一些指令转到博客。 mkdir rm touch vi a.txtmount –o remount,rw / 这个命令来让我们的/路径文件系统为可读模式grep -A -B -C -c(count) -a(binary)cat server.log |grep “2015-03-03 17:18:3” tail -n 100 server.logopen -e .b
2016-04-21 17:33:47 251
转载 常见的各种距离总结
原帖:http://blog.csdn.net/shiwei408/article/details/7602324 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:
2016-04-21 17:30:59 4272
原创 马氏距离与欧式距离
欧式距离很常用,分离器最后计算时很多都是用欧式距离, 公式: [(x1-x2)^2+(y1-y2)^2]^1/2但是很多时候,特征的各个维度(属性)的数值差异很大,比如身高,体重,有时候我们常用标准化来解决,比如求取每种特征的Max和Min,然后用特征的值去除以(Max-Min),得到的就是标准化后的值。而马氏距离,采用里另一种方法,通过对差异乘各属性的协方差矩阵,来保持各个属性的差异,公式:
2016-04-21 17:28:58 4363
原创 k-means 简单实现
同学很久以前做的,那时候我刚实习,他刚参加工作(他是两年制),那时候开始对数据挖掘感兴趣,他发给我的他自己做的demo。 原帖地址:http://www.cnblogs.com/niuxiaoha/p/4645989.htmlpackage neugle.kmeans;import java.io.BufferedReader;import java.io.FileNotFoundExcepti
2016-04-20 19:16:10 678
转载 时间复杂度计算(二)
四、定义:如果一个问题的规模是n,解这一问题的某一算法所需要的时间为T(n),它是n的某一函数 T(n)称为这一算法的“时间复杂性”。当输入量n逐渐加大时,时间复杂性的极限情形称为算法的“渐近时间复杂性”。我们常用大O表示法表示时间复杂性,注意它是某一个算法的时间复杂性。大O表示只是说有上界,由定义如果f(n)=O(n),那显然成立f(n)=O(n^2),它给你一个上界,但并不是上确界,但人们
2016-04-20 17:20:17 361
转载 程序时间复杂度计算(一)
最近休息的状态,所以将以前工作时纪录在“印象笔记”的较好的资料和以前自己的一些想法,逐步整理到博客里吧。一、概念 时间复杂度是总运算次数表达式中受n的变化影响最大的那一项(不含系数) 比如:一般总运算次数表达式类似于这样: a*2^n+b*n^3+c*n^2+d*n*lg(n)+e*n+f a ! =0时,时间复杂度就是O(2^n); a=0,b<>0 =>O(n^3); a,b=0,c
2016-04-20 17:16:14 6513
原创 一个图像算法岗的面试总结
职业规划原因吧,耗时半个月的交接后,终于加入了裸辞大队,说句题外话,领导一再劝我找到心仪的再走,但是自己想着背水一战吧,如果有人也有这种想法的话,我觉得你可以等等,因为即使原单位帮你交了一个月的社保等其他东西,但是你还会有压力,过程有些熬人。 这是离职后的第一个面试(还没开始投简历,但是因为办离职时更新了,有些觉得不错的机会打电话来约,想想也就先试试了,后续会不定时更新下,这个是昨天的,今天的昨晚
2016-04-19 20:22:10 18116
原创 文本小票的一种无监督聚类方法
基于ostu的无监督文本聚类 对于区分不同店铺的小票效果良好 同店铺小票不同类别区分效果一般,但是对于离群点定位(小样本类别很精准),借鉴了TF/IDF的思想,还有词处理时的去停词,词频因素的考虑优化,分类的阈值计算为每次基于相似度集合的前后背景最大分割点,不断二分类。 ostu为图像二值化处理时的一种算法(类间最大方差),图像专业,前年第一次尝试做聚类时的一个想法和实现,前后设计调优用了三天,不
2016-04-19 19:49:49 619
原创 多个C3P0的java举例
在使用mysql时,如果数据库会被频繁多人调用,有必要使用连接池来帮助协调,使用C3P0连接池时想要用多个数据库时,需要分别定义ComboPooledDataSource的静态对象。举例如下:public class ConnOfC3P0Util { private static Log logger = LogFactory.getLog(ConnOfC3P0Util.class);
2016-04-19 19:37:49 1397
原创 基于投影和众数特点的粘连sku分割
首先是基本的投影:/** * 图像向x轴做投影后的数组 * * @param imagedata * @param w * 宽 * @param h * 高 * @return */ public static int[] xpro(BitSet bitSe
2016-04-19 19:31:00 546
原创 SVM推导帖子收藏
SVM推导里看过的不错的两个帖子,还有就是《机器学习实战》中的SVM那一章的SMO的简单实现的python代码,学习SVM的可以看一看,比《统计学习》书里的部分,细节要详细些。'''Created on Nov 4, 2010Chapter 5 source file for Machine Learing in Action@author: Peter'''from numpy impo
2016-04-19 19:20:00 542
转载 文本特征选择算法:卡方检验和信息增益
转载自:http://blog.sina.com.cn/s/blog_6622f5c30101datu.html 特征提取步骤: 1. 卡方检验1.1 统计样本集中文档总数(N)。 1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。 1.3 计算每个词的卡方值,公式如下:1.4 将每个词按卡方值从大到小排序,选取前k个词作为特征,k即
2016-04-19 19:11:12 2582
Beyond the C++ Standard Library_ An Introduction to Boost 中文版
2013-07-09
Feature Extraction in Computer Vision and Image Processing
2013-07-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人