自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 问答 (2)
  • 收藏
  • 关注

原创 稀疏矩阵的存储格式(Sparse Matrix Storage Formats)

对于很多元素为零的稀疏矩阵,仅存储非零元素可使矩阵操作效率更高。现有许多种稀疏矩阵的存储方式,但是多数采用相同的基本技术,即存储矩阵所有的非零元素到一个线性数组中,并提供辅助数组来描述原数组中非零元素的位置。以下是几种常见的稀疏矩阵存储格式:1. Coordinate Format (COO)这种存储方式的主要优点是灵活、简单。仅存储非零元素以及每个非零元素的坐标。使用3...

2013-10-31 19:28:22 349

原创 机器学习使用的数学知识

1.线性代数(LinearAlgebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是Introduction to Linear Algebra (3rd Ed.)  by Gilbert Stran...

2013-10-30 11:30:35 210

原创 和机器学习和计算机视觉相关的数学

 感觉数学似乎总是不够的。这些日子为了解决research中的一些问题,又在图书馆捧起了数学的教科书。从大学到现在,课堂上学的和自学的数学其实不算少了,可是在研究的过程中总是发现需要补充新的数学知识。Learning和Vision都是很多种数学的交汇场。看着不同的理论体系的交汇,对于一个researcher来说,往往是非常exciting的enjoyable的事情。不过,这也代表着要充分了...

2013-10-30 11:22:06 85

原创 机器学习中的算法(2)-支持向量机(SVM)基础

版权声明:    本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言:    又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于 SVM(S...

2013-10-30 11:06:57 74

原创 Latent Semantic Analysis(LSA/ LSI)算法简介

本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为[email protected],转载请注明出处。 1. 传统向量空间模型的缺陷  向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF 值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di...

2013-10-30 11:02:50 427

原创 Introduction to Topic Modeling learning

原文:http://chentingpc.me/article/?id=616 Topic Modeling(主题模型)是一个比较神奇的东西,之前听说过,没意识到它的重要性。直到唐总的点拨后重新认真看看,可以说文本挖掘的一个基础吧(比较 高级的基础?)。问题的输入是文档,输出是低维空间的主题,是unsupervised算法。基本经历发展是 LSI->pLSI->LDA-&g...

2013-10-30 10:49:26 202

原创 工作总结ppt记录

记录之前工作的ppt

2013-10-29 17:10:39 133

原创 OCR学习记录

最近对验证码识别做了一些研究,主要是OCR方向的,一些总结记录一下。识别CAPTCHA后面跟了很多参考文章都讲解的很详细了,做ORC不难,难点在于如何提高识别率。基本流程如下:1.原图2.预处理(去噪点)3.标准化(灰度变换,二值化,归一化)4.image segment(个人感觉这个比较难,有很多算法,比如垂直投影直方图,KNN,Color Filling)5.提取特征...

2013-10-29 16:55:05 483

原创 libevent 源码深度剖析

libevent 源码深度剖析

2013-10-29 16:33:07 136

原创 垃圾过滤笔记

见附件,文件名直接去掉zip后缀。

2013-10-22 14:31:33 95

原创 推荐系统文档集合

探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤

2013-10-21 11:57:56 169

原创 dboss问题记录

问题记录:1. param乱码问题DbossError: com.duitang.dboss.client.exception.DbossClientException: dboss invoke ERROR: url=dboss2://blogQueryService/queryBlogDetail?q=%5B%22%5B%7B%5C%22blogid%5C%22%3A+90041121%2C+...

2013-10-21 10:59:27 728

原创 Python在豆瓣的应用

Python在豆瓣的应用,hongqiangning分享 

2013-10-21 10:46:45 208

原创 机房网络结构

机房网络结构,供参考 

2013-10-21 10:33:45 2012

原创 在Cookie中使用Base64存储二进制的问题

项目中需要将压缩后的二进制数据存入cookie的value中。如果直接将二进制数据存入是不行的,因为cookie规范中规定了一些字符不允许存入: 引用With Version 0 cookies, values should not contain white space, brackets, parentheses, equals signs, commas, double quot...

2013-10-17 11:14:25 792

原创 blog优化项目的总结

服务化的意义一个页面的输出=how,what ,when how :如何输出 what:输出什么内容 when:什么时候更新(大部分是实时更新)为什么采用java来实施1. 代码复用问题 2. django ORM的问题left jion和拆分成N条SQL(通过pk查询) JOIN拆分成2条SQ优点1. 代码简单 2. 理论上响应时间更短1.对...

2013-10-16 15:39:07 92

原创 进程无法退出总结

问题记录:jython 运行某个脚本不会退出,通过jstack发现主线程等在Thread.join()上:"MainThread" prio=10 tid=0x000000005891a000 nid=0x7d6d in Object.wait() [0x0000000041f5d000]   java.lang.Thread.State: WAITING (on object monitor)...

2013-10-16 15:09:40 273

原创 基础算法--排序算法

排序算法包括:插入排序(insert sort)快速排序(quick sort)快速选择(quick select) 堆排序(heap select) http://stackoverflow.com/questions/1034846/finding-nth-item-of-unsorted-list-without-sorting-the-list/1036240#1036...

2013-10-12 12:40:48 93

原创 ubuntu安装tesseract 进行OCR识别

之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问题,不能使用psm参数。决定手动编译安装。下面参考别人的安装过程。安装所需的库sudo apt-get install libpng12-devsudo apt-get install libjpeg62-devsudo apt-get install...

2013-10-11 11:34:12 1021

原创 求和公式记录

看到很多公式都不认识,记录一下: ∑ 英语名称:Sigma 汉语名称:西格玛(大写∑,小写σ),是第十八个希腊字母。 在希腊语中,如果一个单字的最末一个字母是小写sigma,要把该字母写成 ς,此字母又称final sigma(Unicode: U+03C2)。在现代的希腊数字代表6。   大写∑用于:   数学上的总和符号   比如:  ∑Pi,其中i=1,2,...,T,   即为...

2013-10-10 16:22:17 300

原创 用python爬虫抓站的一些技巧总结

学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。 - 这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累...

2013-10-10 14:12:21 102

原创 使用PIL计算直方图并显示

什么是直方图?直方图就是统计图像中像素点为某个颜色值的个数。下面是python代码# -*- coding: utf-8 -*-from PIL import Imagefrom PIL import ImageDrawim = Image.open('code1.png')im = im.convert('L')width, height = im.sizepi...

2013-10-10 12:34:58 1500 1

原创 python小技巧

1. 声明长度256的数组a=[0]*256  

2013-10-10 11:50:21 58

原创 使用tesseract-ocr破解网站验证码

原文:使用tesseract-ocr破解网站验证码 首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码 http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/...

2013-10-09 10:25:11 341

原创 统计单词出现频率

这里有一个大文本,文件请从 http://10.125.9.144:8000/document.zip 获取,在解压后大约有20m(实际比赛时文件是1.1G)。 文本中都是英文单词,空格以及英文的标点符号: [.,;-~"?'!] (句号,逗号,分号,破折号,波浪号,双引号,问号,单引号,感叹号)请统计出该文本中最常出现的前10个单词(不区分大小写)。 请注意,在统计中这20个单词请忽略(th...

2013-10-07 20:58:51 223

原创 String的indexOf实现

今天看了一下String的indexOf实现,其实实现原理不难,先把String转换为char[],然后首先找到target的的第一个字符开始匹配. /** * 类似String.indexOf(),不过是针对byte array * * @param source * @param target * @return ...

2013-10-03 12:51:40 591

jvm规范

最权威的JVM规范,深入讲解classloader,class装载时机,类装载安全

2007-11-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除