自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

残缺的歌的专栏

pure coding and thinking

  • 博客(19)
  • 资源 (4)
  • 收藏
  • 关注

原创 网页去重(四)之余弦夹角计算相似度

网页去重之余弦夹角计算相似度1.   相似度度量  相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算

2015-12-24 19:00:41 1923

原创 网页去重(三)之特征值的提取

网页去重(三)特征值一、      什么是特征值下面收集来自百度百科的资料:TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF *IDF,TF词频(TermFrequency),IDF逆向文件频率(InverseDocument Frequency)。T

2015-12-24 18:53:50 2442

原创 网页去重(二)最小编辑法

网页去重(二)最小编辑法一、      例子二、     Java算法实现public static int min_edit_distance(String target,String source){ int t_len = target.length(); int s_len = source.length(); int[][] d

2015-12-17 19:47:04 1239

原创 网页去重(一)简介

网页去重(一)简介             网页去重(一)简介一、概念:引用百度百科文献:搜索引擎优化中,网站内部优化至关重要,其中网站内部还需要注意页面的重复。即:同一篇文章经常会重复出现在同一个网站的不同网址上。搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了。虽然都是内容相关的。搜索引擎希望只返回相同文章中

2015-12-17 19:39:36 2376

原创 中文分词之左右完整性及稳定性

一、      概念:新闻案例:“out-100”的说法也在考生父母之间流传,即在全校排名100名开外时,基本与名牌大学无缘的意思。此外,“入学考试代理父母”也成为新风尚,主要指子女就读于名牌大学的父母受别人委托,辅导其他家庭的子女高考。     在这条新闻的两句话中,两次出现了“名牌大学”的字样,但是,在分词的时候出现这样的结果:很明显,在这里“名牌”两字单独

2015-12-15 22:28:05 1512

原创 中文分词之过滤候选词以及去重

中文分词之过滤候选词以及去重一、      过滤单个词,特殊符号代码实现:/** * 过滤特殊词(单字动词,特殊符号) * @param inputPath * @param outPath * @throws Exception */ public static void filterWordFile2File(String inputFileStr,St

2015-12-15 22:21:45 4105 2

原创 中文分词之候选集的选取

中文分词之候选集的选取一、      基本思路:·0. 之前讲到利用字典的分词,是因为字典的词组是有限的,单个的。但是候选词是可以由多个词组成。例如“Android/x  系统 /n  平台/n”,“蓝/n  牙/n”等。如果把这些词是连着出现在被爬虫爬下来的文章中,那么就很有必要把“Android系统 平台”,“蓝牙”作为整体的词语来理解了。即“把x n n”,”n n”组合在一起作

2015-12-15 22:16:24 1802

原创 中文分词之基本分词

中文分词之评价基本分词一、      大纲步骤:  评价对象的抽取分为:基本分词,候选词的获取,特殊词的过滤,完整性算法,稳定性算法二、      基本分词先利用IC对文章进行基本的分词,分词的依据是IC本身自带的词典。该词典只有普通分词,例如/n ,/v, /q,/ns,/w等。 import java.io.BufferedReader;importjava.io.B

2015-12-15 21:55:48 1641

原创 中文分词之识别语义

中文分词之识别语义一、      概述:我们都知道、对于搜索引擎、如果利用现成的框架是比较容易实现以下步骤:获取文本内容、建立索引、分词识别、检索。但是这并不能保证检索出来的东西是我们想要的结果。识别语义、查找的东西与检索出来的东西的相关性是搜索引擎的核心。      例如:“今年中秋、这里人来人往、好不热闹!”通常来说“不”字是否定词,但是这里的“不”是语气词,并非否定的意思。所以,

2015-12-15 21:38:51 10798

原创 IC分词和IK分词

一、   IC中文分词1.   简介:下载地址:http://www.ictclas.org/中科院的分词开源包,但是有版权!2. 使用:      \Sample\Windows_64_jni_Demo 把这个扔进eclipse中。          其中:ICTCLAS 是放在src的包,TestMain是测试程序,其它放在根目录。二、IK分词   

2015-12-15 21:36:38 879

原创 递归读取heritrix 爬下来的目录文件

递归读取heritrix 爬下来的目录文件1.   在StringUtil中获取写一个根据路径递归的方法    public  ArrayList getAllPath(Stringpath){        File file = newFile(path);        File[] fileList = file.listFiles();        for(Fi

2015-12-15 21:35:18 475

原创 Heritrix 工具化

Heritrix 工具化为了方便开发,我们需要定制Heritrix然后打包,作为一个工具来使用。 为此我们需要:1) 免登陆2) 统一输出路径3) 默认order.xml4) 用bat启动并加载自己的heritrix.jar 1.   免登陆在webapp的web.xml中把安全过滤的后缀.Jsp改为其他后缀 2.   统一输出路径在org.arch

2015-12-09 22:06:34 345

原创 树形目录递归

1.题目 这是我当时用两个小时做的答案,还有很多地方需要优化,望各位指点(注意竖线的格式,竖线的格式为这道题目增加了不少难度)。JAVA 格式版: import java.io.File;import java.util.ArrayList;/** * 递归回溯法 * @author Administrator *1.递归目录 *2.递归时用bool类型存放是否应

2015-12-09 19:09:41 1096

原创 多位水仙花数算法

多位水仙花数算法1.递归(用时16-20s;写起来非常方便,非常爽):import java.math.BigInteger;import java.util.ArrayList;/** * 三位的水仙花数共有4个:153,370,371,407; 四位的水仙花数共有3个:1634,8208,9474; 五位的水仙花数共有3个:54748,92727,93084;

2015-12-09 18:59:23 968

原创 Heritrix 初步优化(应用ELFHash优化线程数量)

Heritrix 初步优化一. 应用ELFHash 算法优化开启线程策略0.   在默认的情况下,Heritrix使用HostnameQueueAssignmentPolicy来产生key值,而这个策略是用hostname作为key值的,因此一个域名下的所有链接都会被放在同一个线程中去。如果对Heritrix分配URI时的策略进行改进,利用ELFHash“可执行链接格式”(Executab

2015-12-09 18:49:33 907

原创 ELFHash 算法

最近在对Heritrix 进行线程策略优化的时候(原来是根据Hostname来开线程的,现改为根据hash函数算出来的key值开线程),需要用到ELFHash算法,上网找了找资料,自己总结下。它对于长字符串和短字符串都很有效,字符串中每个字符都有同样的作用,它巧妙地对字符的ASCII编码值进行计算,ELFhash函数对于能够比较均匀地把字符串分布在散列表中。这些函数使用位运算使得每一个字符都对

2015-12-09 15:55:00 499

原创 Heritrix 的主题抓取策略

Hetiitrix 主题策略抓取主要分两种:基于链接和基于内容。扩展FrontierScheduler 和扩展Extractor一.      扩展FrontierScheduler1.新建org.archive.crawler.postprocessor.MyFrontierScheduler|MyFrontierScheduler继承FrontierScheduler类,重写s

2015-12-09 10:14:26 557

原创 Heritrix简介以及环境搭建

Heritrix简介以及环境搭建一、heritrix简介Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。它的执行是递归进行的,主要有以下Heritrix 有Web 控制管理界面几步:1。在预定的URI中选择一个。2。获取URI

2015-12-04 17:08:49 526

转载 吴英昊:电商搜索引擎的架构设计和性能优化

吴英昊:电商搜索引擎的架构设计和性能优化摘要:电商搜索引擎和普通的搜索引擎有很大差别,因为电商搜索引擎主要是解决用户要“买什么”,而不是用户“搜什么”。比如搜索“百年孤独”,电商的搜索肯定是给你推荐这本书的商家,而不是《百年孤独》是一本书。在OneAPM 技术公开课第一期中,前当当网高级架构师吴英昊对电商搜索引擎的架构进行了深入分享。在演讲中,他首先就电商搜索引擎的特点进行了解

2015-12-02 10:33:24 980

2015年最新基于jsp的李狗蛋买书网(优秀类毕业设计)

jsp+servlet+sql server 2008。内含源码,报告,数据库!无论是课程设计还是毕业论文,还是新手学习,都非常有借鉴的地方!

2015-07-16

2015最新基于JSP的网络订餐系统(jsp+servlet)

2015最新基于JSP的网络订餐系统(jsp+servlet),内含数据库,源码和报告,只要改改数据库密码便可以运行。

2015-07-16

2015最新JSP+Servlet课程设计-二手驿站(有报告)

2015最新JSP+Servlet课程设计-二手驿站(有报告),适合课程设计,成绩良好,高手勿喷!

2015-07-16

php会员管理系统模板(适合初学者)

这是我自己刚学时用的模板,该模板 主要功能: 1.会员注册; 2会员资料修改; 3会员信息查询; 4管理员注册; 5管理员登陆及管理. 这个特别适合初学者学习,望大家多多支持

2013-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除