自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

三劫散仙

有问题关注微信公众号:我是攻城师(woshigcs)

  • 博客(8)
  • 资源 (17)
  • 收藏
  • 关注

原创 网页去重思路浅析(一)

最近,由于工作需要,需要对爬虫爬下来的网页数据进行相似度去重。 那么问题来了,为什么要去重? 爬虫采集的数据可能来自各个网站,比如一个热门新闻,可能网易,搜狐,新浪,都有转载报道,如果不做任何措施,那么存储到库里就是3条数据,当然这仅仅是一个例子,假如,你有几TB或PB的数据,如果还这样,那么你的库可能有30%都是大量的重复数据,这些重复数据,一般不会给你带来任何价值,而且会占用大量的

2015-09-29 21:12:13 1371

网页去重思路浅析(一)

[img]http://dl2.iteye.com/upload/attachment/0104/9536/aa4c388c-0adb-309d-82d1-58e6bc039aa5.png[/img][size=large]最近,由于工作需要,需要对爬虫爬下来的网页数据进行相似度去重。那么问题来了,为什么要去重? 爬虫采集的数据可能来自各个网站,比如一个热门新闻,可能网易,搜狐,新...

2015-09-29 21:01:28 184

解决maven打包Mark invalid异常

[size=large]今天在用maven打包spring-boot项目时,报了如下的一个异常:[/size][code="java"][ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:2.7:resources (default-resources) on project sea...

2015-09-22 11:22:55 2409 1

原创 Solr字段ExternalFileField使用

ExternalFileField是一种非常灵活的定义排序的一种字段,适用于一些需要临时提高某些doc的排名,但是又不想显式的把评分建立到索引里面,这种需求,在电商的业务里面,经常会遇到一些特定的节日进行商品大促,需要临时提高一批索引数据的排名,而又不想重建整个索引,在大促结束后,这些排名又恢复正常,这种场景下非常适合使用ExternalFileField来解决,与竞价排名非常类似。 Ex

2015-09-15 16:48:01 1289

Solr字段ExternalFileField使用

[size=large]ExternalFileField是一种非常灵活的定义排序的一种字段,适用于一些需要临时提高某些doc的排名,但是又不想显式的把评分建立到索引里面,这种需求,在电商的业务里面,经常会遇到一些特定的节日进行商品大促,需要临时提高一批索引数据的排名,而又不想重建整个索引,在大促结束后,这些排名又恢复正常,这种场景下非常适合使用ExternalFileField来解决,与竞价排名...

2015-09-15 16:43:30 272

Intellj IDEA+Jetty部署调试web项目

[size=large]Intellj IDEA里面使用jetty调试web有2种方式:(1)Jetty Server (在本地local模式运行),使用外部的容器,需要单独下载配置配置jetty homeJetty下载地址http://download.eclipse.org/jetty/,指定端口号比较麻烦[/size][img]http://dl2.iteye.com/u...

2015-09-07 16:58:08 1297

Spark入门之WordCount

[img]http://dl2.iteye.com/upload/attachment/0111/4770/079b7965-40fb-318c-8c35-cd5d6aa03c83.png[/img][size=large]环境:Hadoop版本:Apache Hadoop2.7.1 Spark版本:Apache Spark1.4.1核心代码:[/size]...

2015-09-06 20:15:25 111

Intellj IDEA+Maven如何构建多模块项目

[size=large]在使用Java构建大型企业级项目时,我们一般更倾向于分层,分模块,分服务,分功能开发,这样搞的目的只有一个就是以高内聚,低耦合方式来提高整个项目的灵活性,扩展性,复用性,当然,这里面蕴含的思想与Java的设计模式和开发原则是非常类似的,因为大公司的项目的结构一般都非常复杂,只有提前规划好开发模式,才能在以后不断扩展,迭代,重构时减少出现牵一发而动全身的情况。企业级项...

2015-09-01 19:50:49 203

protobuf-2.5.0.tar.gz

Hadoop2.x安装必须的通信包,google的protobuf协议,google官网已经下载不了了,特地传到此处,供大家使用! 在编译hadoop的时候,是必须要安装这个的,否则编译会失败的

2015-06-24

hadoop插件

基于Hadoop2.2的稳定版本的,eclipse插件,大家以后可以更方便的调试Hadoop程序了。

2013-12-17

luke4.6工具

luke4.6查看索引工具,最新版lucene的查看工具,本人测试过,可以正常使用!

2013-12-05

eclipse插件

hadoop1.2.0的eclipse插件,笔者经过测试可以完美运行,对于刚学习hadoop1。x的同学们,是一份不可多得的好资料。

2013-11-10

luke4.5的jar包

luke4.5的索引查看工具,最新版lucene的索引查看工具,用4.x版本的lucene的朋友们,可以使用luke4.5方便的查看,修改,更新索引了,支持4.5之前的所有lucene索引,有需要的朋友们,下载吧,LZ测试过,可以正常使用。

2013-10-29

Access驱动

jdbc Access驱动,兼容处理03,07+的Access,的增删改查。值得下载

2013-09-23

lucene4.3工具类

lucene4.3增删改查的的一个工具类,对新手来说是一份不可多得的入门资料。

2013-08-15

luke4.4索引查看工具

关于全文检索的最新版Lucene4.4,solr4.4的索引查看工具,新项目的开发的朋友们,可以下载下来,方便查询索引结构。

2013-08-15

向LUCENE搜索引擎中加人中文同义词查询

介绍lucene同义词库的使用,想使用lucene同义词的朋友们,如果不知道原理的可以看下。

2013-08-08

lucene的索引工具

lucene的最新版本的索引查看工具,支持4.x以上的索引查看,分析,非常方便调试,官网只能支持到4.0,本工具支持最新的lucene及solr的4.3版本。

2013-07-18

solr各个热点功能详解

详细介绍了solr中,各个功能的UI页面的使用,以及使用solrj操作solr的代码,比较全面的总结了solr的各个功能点。是不可多得的好资料!

2013-07-11

solr4.3的IK分词器

最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题

2013-06-25

solrcold与zk集群

关于solr4.3solrcloud与zk+tomcat6.x集群,详细描述。

2013-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除