Ansj分词器有几种内置的分词器,及其作用?
5种
BaseAnalysis
DicAnalysis
IndexAnalysis
NlpAnalysis
ToAnalysis
建表的注意事项
1、内外表分类
2、字段与类型
3、分区与否
4、行与字段的分隔符
5、存储格式
搜索引擎的索引建立的格式
倒排索引
将查询目标和查询的数据源进行映射关系处理。
关于中文分词当中的词性说明
继承了传统的中文分词。
同时为了更精准、更为后续的数据挖掘提供更多的信息支撑,故又进行了词性的扩展。
北大系词性扩展
中科院系词性展
词性过滤引起的黑白名单的使用场单
黑名单场景:我不知道我要什么,但是我知道我不要什么。
白名单场景:我知道我要什么,但是我不知道我不要什么。
Java当中解决去重、过滤问题的常用类
HashSet
无序,不可重复
无序:插入序不等于存储序。
不可重复: hashcode进行hash表的定位,equals来判断是否与对应的链表有相等的元素,如果有,则认为重复,此次添加无效。如果没有相等的元素,则将新元素插入链表的头部。
HashMap
当map当中的value=null时,则为HashSet。
一次初始化多次使用对象的场景
标记法
写代码时”用脑子指导着手去干活,即用脑干活”。
在写代码时,尤其是写代码之前,应该搞清楚写这个代码、写这个功能时候的注意事项。并在写的过程中,解决掉注意事项当中的各项潜在风险问题。
自然语言处理当中的停用词表
专业语语,stopwords。
意为没有用的词,即没有实际意义的词。
数据组成
1、系统停用词
2、行业停用词
3、自定义的停用词
黑名单数据过滤问题的抽象
在A表,不在B表的SQL问题。
即典型in A and not in B
两种实现方法
1、 not in
2、 left join + b.key is null的方式
05-22
2423
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountWhite.png)