2013年12月_码农SW

转载 Unicode in Python 完全揭秘

挺不错的一个PPT, mark 一下http://farmdev.com/talks/unicode/

2013-12-30 14:41:40 747

程序分析是以某种语言书写的程序为对象，对其内部的运作流程进行分析。程序分析的目的主要有三点：一是通过程序内部各个模块之间的调用关系，整体上把握程序的运行流程，从而更好地理解程序，从中汲取有价值的内容。二是以系统优化为目的，通过对程序中关键函数的跟踪或者运行时信息的统计，找到系统性能的瓶颈，从而采取进一步行动对程序进行优化。最后一点，程序分析也有可能用于系统测试和程序调试中。当系统跟踪起来比较复杂，

2013-12-30 10:54:15 980

转载 X-Y Problem

对于X-Y Problem的意思如下：1）有人想解决问题X2）他觉得Y可能是解决X问题的方法3）但是他不知道Y应该怎么做4）于是他去问别人Y应该怎么做？简而言之，没有去问怎么解决问题X，而是去问解决方案Y应该怎么去实现和操作。于是乎：1）热心的人们帮助并告诉这个人Y应该怎么搞，但是大家都觉得Y这个方案有点怪异。2）在经过大量地讨论和浪费了大量的时间后，热心的

2013-12-18 16:18:33 899

转载 PyMongo基本使用

引用PyMongo>>> import pymongo 创建连接Connection>>> import pymongo>>> conn = pymongo.Connection('localhost',27017)或import>>> conn = Connection('localhost',27017)

2013-12-18 13:18:45 15470

转载海量数据相似度计算之simhash和海明距离

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本

2013-12-16 16:40:03 3147

转载 Mahout的taste里的几种相似度计算方法

欧几里德相似度（Euclidean Distance）最初用于计算欧几里德空间中两个点的距离，以两个用户x和y为例子，看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值，yi表示用户y对itemi的喜好值，他们之前的欧几里德距离是对应的欧几里德相似度，一般采用以下公式进行转换：距离越小，相似度越大在taste里，计算user之间

2013-12-16 16:27:26 6608

train的专栏

转载 Unicode in Python 完全揭秘

转载程序分析工具gprof介绍

转载 X-Y Problem

转载 PyMongo基本使用

转载海量数据相似度计算之simhash和海明距离

转载 Mahout的taste里的几种相似度计算方法

空空如也

空空如也

转载 Unicode in Python 完全揭秘

转载 程序分析工具gprof介绍

转载 X-Y Problem

转载 PyMongo基本使用

转载 海量数据相似度计算之simhash和海明距离

转载 Mahout的taste里的几种相似度计算方法

空空如也

空空如也

转载程序分析工具gprof介绍

转载海量数据相似度计算之simhash和海明距离