![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
Cocktail_py
这个作者很懒,什么都没留下…
展开
-
ac自动机
需求:数据库中有百万篇文章,几十万个关键词,需要将关键词与文章匹配,满足以下条件之一可以视为该关键词与文章是匹配的.(标题出现一次2分,文章中出现一次1分)条件1:关键词在文章标题中出现1次,并且在文章中出现的次数>=2,则表示该文章与关键词是匹配的.条件2:关键词没有在文章标题中出现,但在文章中出现的次数>=4,则表示该文章与关键词是匹配的.ac自动机# -*- codi...原创 2019-08-20 06:46:20 · 542 阅读 · 0 评论 -
nlpaug 自然语言 文字增强
1.同义词替换import nlpaug.augmenter.word as nawtext = "hello Word!"aug = naw.SynonymAug(aug_src='wordnet')ouput = aug.augment(text)>>'hi Word!'2.上下文词嵌入增强器Contextual Word Embeddings Augmenteraug = naw.ContextualWordEmbsAug( model_path='bert-b原创 2021-06-02 11:55:46 · 1434 阅读 · 1 评论 -
transformers中英文互译
```python# @Time : 2021/5/27 15:28# @Author :from transformers import pipeline, AutoModelWithLMHead, AutoTokenizer# 英文翻译成中文model = AutoModelWithLMHead.from_pretrained("Helsinki-NLP/opus-mt-en-zh")tokenizer = AutoTokenizer.from_pretrained("Hel原创 2021-05-27 18:03:25 · 2508 阅读 · 2 评论 -
python Name Entity Recognition(NER) extract company name 命名实体识别 提取公司名
命名实体识别(NER)可能是信息提取的第一步,该过程旨在将文本中的命名实体定位和分类为预定义类别,例如人员名称,组织,位置,时间表达,数量,货币价值,百分比,等等。NER在自然语言处理(NLP)的许多领域中使用,它可以帮助回答许多现实世界中的问题,例如:新闻中提到了哪些公司?在投诉或评论中是否提到了特定产品?该推文中是否包含一个人的名字?该推文中是否包含此人的位置?1.安装相应依赖pip3 install stanza# ModuleNotFoundError: No module na.原创 2021-05-06 17:18:57 · 2384 阅读 · 0 评论 -
python semantic text similarity 解决单词,词组,句子相关性问题
一.什么是文本相似度?需要解决文本相似度必须确定两段文本的词汇相似(lexical similarity) 以及 语义相似(semantic similarity)问题具体文献参考: Text Similarities : Estimate the degree of similarity between two texts二.代码实现# -*- coding: utf-8 -*-# @Time : 2021/04/15 09:01# @Author :from semantic_t原创 2021-04-15 15:48:43 · 2259 阅读 · 0 评论 -
TextRank中文,英文关键词提取
1.基于pytextrank英文关键词提取# pip install pytextrank# python -m spacy download en_core_web_smimport spacyimport pytextranktext = "Compatibility of systems of linear constraints over the set of natural numbers. Criteria of compatibility of a system of linear原创 2021-01-28 15:02:13 · 9113 阅读 · 9 评论 -
python esm构建ac自动机
# -*- coding: utf-8 -*-# @Time : 2021/1/19 10:01# @Author :# pip install esmre-0.5.2from esmre import esmindex = esm.Index()index.enter("宝马")index.enter("马")index.enter("奔驰")index.enter("保时捷")index.fix()target = "哎呀,今天在楼下看到了宝马,我老家倒是有养马的,以转载 2021-01-19 10:29:32 · 5390 阅读 · 0 评论 -
逻辑回归 癌症分类预测
逻辑回归(Logistic Regression)是一种分类模型应用场景:广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号一.案例背景介绍# -*- coding: utf-8 -*-# @Time : 2019/11/13 07:16# @Author :import pandas as pdimport numpy as npfrom sklearn.m...原创 2019-11-13 07:35:29 · 1851 阅读 · 0 评论 -
线性回归 波士顿房价预测
线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。通用公式:应用场景:1.房价预测2.销售额度预测3.贷款额度预测一.案例背景介绍# -*- coding: utf-8 -*-# @Time : 2019/11/12 11:46# @Author :from skl...原创 2019-11-13 06:32:27 · 2855 阅读 · 0 评论 -
K-近邻算法(KNN) 预测电影类型
k-近邻算法原理K-近邻算法采用测量不同特征值之间的距离方法进行分类。• 优点:精度高、对异常值不敏感、无数据输入假定。• 缺点:时间复杂度高、空间复杂度高。适用数据范围:数值型和标称型。工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据 与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的 特征进...原创 2019-11-09 14:30:35 · 2921 阅读 · 2 评论