solr导入库时过滤转义字符和html标签爬坑

过滤HTML与转义字符

最新推荐文章于 2021-06-27 06:36:24 发布

原创最新推荐文章于 2021-06-27 06:36:24 发布 · 477 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#solr

本文介绍了一种在Solr中同时使用HTMLStripTransformer和RegexTransformer来过滤HTML标签及转义字符的方法。通过配置data-config.xml文件中的<entity>节点，可以实现对特定字段如title的html标签去除及\n换行符的替换。

过滤html标签的方法很多，但是过滤转义字符的记载却很少，其大概方法为:

打开D:\solr-7.2.1\server\solr\testcore\conf(我的目录)下的data-config.xml，<entity>节点加入 transformer="HTMLStripTransformer,RegexTransformer" 转换器(我选择两种，正则和html转换器)

<field column="title" name="title" stripHTML="true" regex="\n" replaceWith=""/> 再在相应列(你需要处理的列，比如过滤html标签，以及将\n换行符去掉)，具体代码如下

  <entity name="quest_basic_info"  pk="id" transformer="HTMLStripTransformer,RegexTransformer"  query="SELECT id,sid,title FROM quest_basic_info">		
	<field column="id" name="id" />
	<field column="sid" name="sid" />		
	<field column="title" name="title" stripHTML="true" regex="\n" replaceWith=""/>
	</entity>