- 博客(26)
- 资源 (1)
- 问答 (2)
- 收藏
- 关注
原创 稀疏矩阵的存储格式(Sparse Matrix Storage Formats)
对于很多元素为零的稀疏矩阵,仅存储非零元素可使矩阵操作效率更高。现有许多种稀疏矩阵的存储方式,但是多数采用相同的基本技术,即存储矩阵所有的非零元素到一个线性数组中,并提供辅助数组来描述原数组中非零元素的位置。以下是几种常见的稀疏矩阵存储格式:1. Coordinate Format (COO)这种存储方式的主要优点是灵活、简单。仅存储非零元素以及每个非零元素的坐标。使用3...
2013-10-31 19:28:22 371
原创 机器学习使用的数学知识
1.线性代数(LinearAlgebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是Introduction to Linear Algebra (3rd Ed.) by Gilbert Stran...
2013-10-30 11:30:35 220
原创 和机器学习和计算机视觉相关的数学
感觉数学似乎总是不够的。这些日子为了解决research中的一些问题,又在图书馆捧起了数学的教科书。从大学到现在,课堂上学的和自学的数学其实不算少了,可是在研究的过程中总是发现需要补充新的数学知识。Learning和Vision都是很多种数学的交汇场。看着不同的理论体系的交汇,对于一个researcher来说,往往是非常exciting的enjoyable的事情。不过,这也代表着要充分了...
2013-10-30 11:22:06 97
原创 机器学习中的算法(2)-支持向量机(SVM)基础
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于 SVM(S...
2013-10-30 11:06:57 84
原创 Latent Semantic Analysis(LSA/ LSI)算法简介
本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。 1. 传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF 值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di...
2013-10-30 11:02:50 452
原创 Introduction to Topic Modeling learning
原文:http://chentingpc.me/article/?id=616 Topic Modeling(主题模型)是一个比较神奇的东西,之前听说过,没意识到它的重要性。直到唐总的点拨后重新认真看看,可以说文本挖掘的一个基础吧(比较 高级的基础?)。问题的输入是文档,输出是低维空间的主题,是unsupervised算法。基本经历发展是 LSI->pLSI->LDA-&g...
2013-10-30 10:49:26 215
原创 OCR学习记录
最近对验证码识别做了一些研究,主要是OCR方向的,一些总结记录一下。识别CAPTCHA后面跟了很多参考文章都讲解的很详细了,做ORC不难,难点在于如何提高识别率。基本流程如下:1.原图2.预处理(去噪点)3.标准化(灰度变换,二值化,归一化)4.image segment(个人感觉这个比较难,有很多算法,比如垂直投影直方图,KNN,Color Filling)5.提取特征...
2013-10-29 16:55:05 507
原创 dboss问题记录
问题记录:1. param乱码问题DbossError: com.duitang.dboss.client.exception.DbossClientException: dboss invoke ERROR: url=dboss2://blogQueryService/queryBlogDetail?q=%5B%22%5B%7B%5C%22blogid%5C%22%3A+90041121%2C+...
2013-10-21 10:59:27 787
原创 在Cookie中使用Base64存储二进制的问题
项目中需要将压缩后的二进制数据存入cookie的value中。如果直接将二进制数据存入是不行的,因为cookie规范中规定了一些字符不允许存入: 引用With Version 0 cookies, values should not contain white space, brackets, parentheses, equals signs, commas, double quot...
2013-10-17 11:14:25 811
原创 blog优化项目的总结
服务化的意义一个页面的输出=how,what ,when how :如何输出 what:输出什么内容 when:什么时候更新(大部分是实时更新)为什么采用java来实施1. 代码复用问题 2. django ORM的问题left jion和拆分成N条SQL(通过pk查询) JOIN拆分成2条SQ优点1. 代码简单 2. 理论上响应时间更短1.对...
2013-10-16 15:39:07 126
原创 进程无法退出总结
问题记录:jython 运行某个脚本不会退出,通过jstack发现主线程等在Thread.join()上:"MainThread" prio=10 tid=0x000000005891a000 nid=0x7d6d in Object.wait() [0x0000000041f5d000] java.lang.Thread.State: WAITING (on object monitor)...
2013-10-16 15:09:40 289
原创 基础算法--排序算法
排序算法包括:插入排序(insert sort)快速排序(quick sort)快速选择(quick select) 堆排序(heap select) http://stackoverflow.com/questions/1034846/finding-nth-item-of-unsorted-list-without-sorting-the-list/1036240#1036...
2013-10-12 12:40:48 106
原创 ubuntu安装tesseract 进行OCR识别
之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问题,不能使用psm参数。决定手动编译安装。下面参考别人的安装过程。安装所需的库sudo apt-get install libpng12-devsudo apt-get install libjpeg62-devsudo apt-get install...
2013-10-11 11:34:12 1060
原创 求和公式记录
看到很多公式都不认识,记录一下: ∑ 英语名称:Sigma 汉语名称:西格玛(大写∑,小写σ),是第十八个希腊字母。 在希腊语中,如果一个单字的最末一个字母是小写sigma,要把该字母写成 ς,此字母又称final sigma(Unicode: U+03C2)。在现代的希腊数字代表6。 大写∑用于: 数学上的总和符号 比如: ∑Pi,其中i=1,2,...,T, 即为...
2013-10-10 16:22:17 331
原创 用python爬虫抓站的一些技巧总结
学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。 - 这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累...
2013-10-10 14:12:21 107
原创 使用PIL计算直方图并显示
什么是直方图?直方图就是统计图像中像素点为某个颜色值的个数。下面是python代码# -*- coding: utf-8 -*-from PIL import Imagefrom PIL import ImageDrawim = Image.open('code1.png')im = im.convert('L')width, height = im.sizepi...
2013-10-10 12:34:58 1582 1
原创 使用tesseract-ocr破解网站验证码
原文:使用tesseract-ocr破解网站验证码 首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码 http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/...
2013-10-09 10:25:11 348
原创 统计单词出现频率
这里有一个大文本,文件请从 http://10.125.9.144:8000/document.zip 获取,在解压后大约有20m(实际比赛时文件是1.1G)。 文本中都是英文单词,空格以及英文的标点符号: [.,;-~"?'!] (句号,逗号,分号,破折号,波浪号,双引号,问号,单引号,感叹号)请统计出该文本中最常出现的前10个单词(不区分大小写)。 请注意,在统计中这20个单词请忽略(th...
2013-10-07 20:58:51 241
原创 String的indexOf实现
今天看了一下String的indexOf实现,其实实现原理不难,先把String转换为char[],然后首先找到target的的第一个字符开始匹配. /** * 类似String.indexOf(),不过是针对byte array * * @param source * @param target * @return ...
2013-10-03 12:51:40 622
请问如何去掉A标签的选中边框
2011-10-20
多线程操作导致list报NoSuchElementException
2009-04-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人