自然语言处理
potizo
这个作者很懒,什么都没留下…
展开
-
【NLP】使用TF-IDF模型计算文本相似度
所用数据集:ChnSentiCorp_htl_all.csv语料库即存放稀疏向量的列表。要注意的是,搜索文本text与被检索的文档共用一个特征词词典。代码主要使用gensim库完成了分词、TF-IDF模型训练、文本相似度计算。过程如下:分词、建立特征词典、建立语料库、用TF-IDF模型处理语料库、计算搜索文本与被检索文本的相似度。import csvimport jiebafrom...原创 2019-08-28 15:34:34 · 8456 阅读 · 1 评论 -
【NLP】正则表达式
1. 为什么使用正则表达式正则表达式是 处理字符串的强大工具,拥有独特的语法和独立的处理引擎。典型的搜索和替换操作要求提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。通过使用正则表达式,可以:测试字符串内的模式。例如,可以测试输入字符串,以查看字符串内是否...原创 2019-08-28 16:24:12 · 1419 阅读 · 0 评论 -
【NLP】用ML实现中文短文本分类(二分类)
AUC值参考这篇博文:https://baijiahao.baidu.com/s?id=1597939133517926460&wfr=spider&for=pc原创 2019-09-02 14:54:41 · 4298 阅读 · 0 评论