黑名单和白名单

Ansj分词器有几种内置的分词器,及其作用?
    5种
    BaseAnalysis
    DicAnalysis
    IndexAnalysis
    NlpAnalysis
    ToAnalysis
    建表的注意事项
    1、内外表分类
    2、字段与类型
    3、分区与否
    4、行与字段的分隔符
    5、存储格式
    搜索引擎的索引建立的格式
    倒排索引
    将查询目标和查询的数据源进行映射关系处理。
    关于中文分词当中的词性说明
    继承了传统的中文分词。
    同时为了更精准、更为后续的数据挖掘提供更多的信息支撑,故又进行了词性的扩展。
    北大系词性扩展
    中科院系词性展
    词性过滤引起的黑白名单的使用场单
    黑名单场景:我不知道我要什么,但是我知道我不要什么。
    白名单场景:我知道我要什么,但是我不知道我不要什么。
    Java当中解决去重、过滤问题的常用类
    HashSet
    无序,不可重复
    无序:插入序不等于存储序。
    不可重复: hashcode进行hash表的定位,equals来判断是否与对应的链表有相等的元素,如果有,则认为重复,此次添加无效。如果没有相等的元素,则将新元素插入链表的头部。
    HashMap
    当map当中的value=null时,则为HashSet。
    一次初始化多次使用对象的场景
    标记法
    写代码时”用脑子指导着手去干活,即用脑干活”。
    在写代码时,尤其是写代码之前,应该搞清楚写这个代码、写这个功能时候的注意事项。并在写的过程中,解决掉注意事项当中的各项潜在风险问题。
    自然语言处理当中的停用词表
    专业语语,stopwords。
    意为没有用的词,即没有实际意义的词。
    数据组成
    1、系统停用词
    2、行业停用词
    3、自定义的停用词
    黑名单数据过滤问题的抽象
    在A表,不在B表的SQL问题。
    即典型in A and not in B
    两种实现方法
    1、 not in
    2、 left join + b.key is null的方式
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值