- 博客(4)
- 收藏
- 关注
原创 工作中常用的Regular Expression
为了工作方便(每次过一段时间要用re的时候都需要进行re复健),决定把一些常用的正则表达式记下来。抽取Weibo中的Hashtagpattern = re.compile('(?:\#)([^\#][\u4e00-\u9fcc\S]*?[^\#])(?:\#)', re.U)def hashtag(s): return re.findall(pattern, s)结果:...
2021-07-16 14:52:33
125
原创 工作总结
工作总结New Product discoveryProduct detectBrands ProfilingNew Product discoveryProduct detectBrands Profiling
2020-04-16 15:49:12
169
原创 Calinski-Harbasz Score 详解
在做海量数据聚类分析的时候,常常因为数据量太大画不出dendrogram,没办法用Elbow Method确定K值。这时需要其他metrics辅助确定K值。概括地说,评估聚类的方法主要有两种:内部评估方法:不需要借助其他监督数据,通过一个单一的量化得分评估算法好坏 外部评估方法:需要知道数据的类别,通过将聚类结果与ground truth进行对比,评估算法好坏实际生产环境中,很少有标注...
2020-04-02 19:55:52
14904
原创 论文阅读笔记——《a simple but tough-to-beat baseline for sentence embeddings》
《a simple but tough-to-beat baseline for sentence embeddings》published at ICLR 2017. ICLR会议的论文总是创意层出不穷,相信将来该会议的地位越来越受人们尊重。 本文提出了一个简单但是完胜现在已有的很多方法的sentence embedding方法。作者称之为WR方法,W stands for we...
2018-09-26 12:02:30
1328
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人