plugin.xml配置了插件实现的接口 导入的第三方包 插件所在的位置等等
索引的结构
index由多个segment(段)组成
segment由多个document(文档)组成
document由多个field(域)组成
field由多个term(项)组成
Text Netel_Email=(Text) datum.getMetaData().get(new Text(JobEngineUtil.NETEL_EMAIL));
从CrawlDatum中的key拿值
doc.add(JobEngineUtil.NETEL_EMAIL,Netel_EmailStr);
放到NutchDocument对象中
LuceneWriter.addFieldOptions(JobEngineUtil.NETEL_EMAIL, LuceneWriter.STORE.YES,LuceneWriter.INDEX.TOKENIZED, conf);
这个应该是设置字段属性的
LuceneWriter.STORE.YES 完全存放 还有NO 不存 COMPRESS 压缩存
INDEX.TOKENIZED 分词并建索引 还有 UN_TOKENIZED 不分词但建索引 NO 不索引 NO_NORMS索引不分析