- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 fasttext 缺少jar
java使用fasttext 预测分类:报错Caused by: java.lang.NoClassDefFoundError: kotlin/ULong at com.mayabot.nlp.fasttext.dictionary.Dictionary.<init>(Dictionary.kt:67) at com.mayabot.nlp.fasttext.dictionary.Dictionary$Companion.loadModel(Dictionary.kt:396...
2020-09-30 18:13:04 308 2
原创 springboot使用Hanlp 依存句法分析
一 序 我也是个NLP小白,Hanlp功能很强大,本文只是简单跑起来句法分析,再看如何根据句法分析结果提取关键词还需要再学习。二 准备maven <dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.8</version> </depende.
2020-09-27 12:54:16 3451 2
原创 2020-09-23群里记录:问题日志与风险登记册的区别与联系
*********来源于群里牛老师分享***********************1.问题日志(Issue Log)用于记录和监督问题的解决。它可用来促进沟通,确保对问题的共同理解。问题日志强调的是干系人对项目上的关注和关心(concern),这些关注和关心的英文是“Issue”,这些“issue”可能是项目的问题(Problem)也可能是项目的风险(risk)。PM在和关键干系人沟通时会借助问题日志进行沟通,例如针对这个issue已经提出了变更请求或者已经作为风险进行应对了等等,这些都是针对该iss
2020-09-23 15:23:28 4201
原创 关于业务限流的思考
一起到限流,可能会理解想到漏桶算法、令牌桶算法。常见开源的也有guava 跟阿里开源的Sentinel但是这些都是通用的。如果是基于业务的限流,那就不一定适合。新的业务场景:比如Sentinel 只是QPS跟线程数两种模式。如果我要分钟级的比如一个用户一分钟20次。还不到一秒一次呢。虽然它也支持热门参数,还是qps的模式。 针对用户ID,或者IP的限流规则是灵活多变的。 而且对于有依赖关系的不支持,比如要访问B接口,先要要访问A接口。(因为有些黑产要绕过你的校验) 有些刷单的校验:用户ID
2020-09-22 23:57:57 999
原创 文本预处理与停用词
文本预处理: 假设抓取的数据就是HTML。比如这种:<div id="container"> <div class="corner_top"></div> <div class="common_hd clearfix"> <div class="fl commend"> 甲磺酸伊马替尼胶囊 <div class="sta.
2020-09-17 10:37:08 1959 3
原创 MySQL 最左原则的理解
先看下规则:一下是美团的技术建索引的几大原则1.最左前缀匹配原则,非常重要的原则,mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引则都可以用到,a,b,d的顺序可以任意调整。2.=和in可以乱序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可
2020-09-16 01:12:39 3705
原创 com.ning.http.client 替换
一背景在引用一个公用的登录jar,发现是给老的springmvc用的。配置filter那种方式,改为springboot之后。不好使。Caused by: java.lang.NoSuchMethodError: org.jboss.netty.handler.codec.http.HttpRequest.headers()Lorg/jboss/netty/handler/codec/http/HttpHeaders; at com.ning.http.client.providers.net.
2020-09-11 14:48:47 1711
原创 NLP 入门整理(不定期更新)
一 入门课程网上的《中文自然语言处理入门实战》为基础。作为一个小白,看不懂术语,更看不懂论文。怎么给自己科普下入门知识。二中文自然语言处理的完整机器处理流程这篇值得学习,看完了起码知道整个处理流程的全貌:.语料清洗(如果原始数据是HTML,获取文本内容也是清洗一部分)分词:这个好理解,词语是是处理流程的最小粒度。是基础。 ansj,hanlp,jieba词性标注:就是给每个词或者词语打词类标签。ansj,hanlp,jieba去掉停用词:停用词一般指对文...
2020-09-04 22:33:07 958
原创 Java selenium 设置代理
如果出现这样的提示,说明IP已经被拉黑了。那么即使不是恶意的访问(几秒一次不算吧),也得上代理。//创建无Chrome无头参数ChromeOptions options=new ChromeOptions();//chromeOptions.addArguments("-headless");String proxyServer = "93.170.6.26:8080";// proxyProxy proxy = new Proxy().setHttpProxy(proxyS
2020-09-04 08:56:17 6170 5
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人