过滤html标签的方法很多,但是过滤转义字符的记载却很少,其大概方法为:
打开D:\solr-7.2.1\server\solr\testcore\conf(我的目录)下的data-config.xml,<entity>节点加入 transformer="HTMLStripTransformer,RegexTransformer" 转换器(我选择两种,正则和html转换器)
<field column="title" name="title" stripHTML="true" regex="\n" replaceWith=""/> 再在相应列(你需要处理的列,比如过滤html标签,以及将\n换行符去掉),具体代码如下
<entity name="quest_basic_info" pk="id" transformer="HTMLStripTransformer,RegexTransformer" query="SELECT id,sid,title FROM quest_basic_info">
<field column="id" name="id" />
<field column="sid" name="sid" />
<field column="title" name="title" stripHTML="true" regex="\n" replaceWith=""/>
</entity>
过滤HTML与转义字符
本文介绍了一种在Solr中同时使用HTMLStripTransformer和RegexTransformer来过滤HTML标签及转义字符的方法。通过配置data-config.xml文件中的<entity>节点,可以实现对特定字段如title的html标签去除及\n换行符的替换。
3082

被折叠的 条评论
为什么被折叠?



