- 博客(6)
- 收藏
- 关注
转载 Unicode in Python 完全揭秘
挺不错的一个PPT, mark 一下http://farmdev.com/talks/unicode/
2013-12-30 14:41:40 747
转载 程序分析工具gprof介绍
程序分析是以某种语言书写的程序为对象,对其内部的运作流程进行分析。程序分析的目的主要有三点:一是通过程序内部各个模块之间的调用关系,整体上把握程序的运行流程,从而更好地理解程序,从中汲取有价值的内容。二是以系统优化为目的,通过对程序中关键函数的跟踪或者运行时信息的统计,找到系统性能的瓶颈,从而采取进一步行动对程序进行优化。最后一点,程序分析也有可能用于系统测试和程序调试中。当系统跟踪起来比较复杂,
2013-12-30 10:54:15 980
转载 X-Y Problem
对于X-Y Problem的意思如下:1)有人想解决问题X2)他觉得Y可能是解决X问题的方法3)但是他不知道Y应该怎么做4)于是他去问别人Y应该怎么做?简而言之,没有去问怎么解决问题X,而是去问解决方案Y应该怎么去实现和操作。于是乎:1)热心的人们帮助并告诉这个人Y应该怎么搞,但是大家都觉得Y这个方案有点怪异。2)在经过大量地讨论和浪费了大量的时间后,热心的
2013-12-18 16:18:33 899
转载 PyMongo基本使用
引用PyMongo>>> import pymongo 创建连接Connection>>> import pymongo>>> conn = pymongo.Connection('localhost',27017)或import>>> conn = Connection('localhost',27017)
2013-12-18 13:18:45 15470
转载 海量数据相似度计算之simhash和海明距离
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本
2013-12-16 16:40:03 3147
转载 Mahout的taste里的几种相似度计算方法
欧几里德相似度(Euclidean Distance)最初用于计算欧几里德空间中两个点的距离,以两个用户x和y为例子,看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值,yi表示用户y对itemi的喜好值,他们之前的欧几里德距离是 对应的欧几里德相似度,一般采用以下公式进行转换:距离越小 ,相似度越大 在taste里,计算user之间
2013-12-16 16:27:26 6608
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人