数据挖掘
wangliang_f
爱搜索,爱科学,爱生活
展开
-
分词学习(1)--正向最大匹配分词
汉字分词最简单的就是正向最大匹配分词了,其基本原理很简单,而且经常作为笔试题。 该算法主要分两个步骤:1 一般从一个字符串的开始位置,选择一个最大长度的词长的片段,如果序列不足最大词长,则选择全部序列。2 首先看该片段是否在词典中,如果是,则算为一个分出来的词,如果不是,则从右边开始,减少一个字符,然后看短一点的这个片段是否在词典中,依次循环,逐到只剩下一个字。3原创 2013-12-24 15:06:00 · 1418 阅读 · 0 评论 -
蛋白质二级结构预测-Chou-Fasman预测方法
Chou和Fasman提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则:1、α螺旋规则原创 2014-04-03 13:13:07 · 9233 阅读 · 0 评论 -
hadoop2.0 做spider下载集群的设置
hadoop一般设置中,一个map或者reduce用到的内存一般设置是1G内存,但作为下载来用,显然是浪费的,一个下载代码用到的内存顶多几十M,而且因为主要耗时是在网络,因此一个cpu可以做几十个下载进程都没啥问题。hadoop一般一个cpu就只跑一个map/reduce. 因此需要对hadoop的设置进行优化,否则就太浪费了。最核心的设置如下,这里用的是阿里云的云服务器原创 2015-06-27 22:41:14 · 983 阅读 · 0 评论