nlp
Cocktail_py
这个作者很懒,什么都没留下…
展开
-
nltk 单词还原为词干
import nltkfrom nltk.stem.snowball import SnowballStemmer# the stemmer requires a language parametersnow_stemmer = SnowballStemmer(language='english')# list of tokenized wordswords = ['cared', 'university', 'fairly', 'easily', 'singing', 's原创 2021-08-27 10:07:49 · 499 阅读 · 0 评论 -
基于LSTM英文文本分类
一.安装相应依赖pip3 install tensorflow==2.2.0pip3 install numpy==1.19.3pip3 install jieba==0.42.1pip3 install nltk==3.6.2pip3 install sklearnpip3 install pandas==1.1.5二.准备数据# 相应的数据格式如下{"category": "Cigarette Manufacturing Machinery", "pro_title": "Thick原创 2021-06-25 18:10:21 · 1466 阅读 · 1 评论 -
通俗易懂解释知识图谱(Knowledge Graph)
1. 前言从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。 本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。知识图谱( Knowledge Graph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及。目前,随着智能信息服务应用的不断发展,知识图谱已被转载 2021-08-25 14:33:00 · 34695 阅读 · 1 评论 -
文本表示方法--单词嵌入向量(word2vec)
# 下载相应数据集# wget https://storage.googleapis.com/cluebenchmark/tasks/tnews_public.zipimport pandas as pdimport jsonimport jieba## 0.gesim词向量实战# 1.读取预处理的数据集# 2.训练# 3.结果# 1.1数据预处理def get_sentence(data_file): # 读取文件 f = open(data_fi.原创 2021-08-22 21:00:31 · 547 阅读 · 0 评论 -
文本表示方法--词频-逆文件频率(TF-IDF)
一.TF-IDF相关概念1.1词频(TF)1.2逆文件频率(IDF)1.3词频-逆文件频率(TF-IDF)二.代码实现import numpy as np# 1.1分词过的语料corpus = [ '这 是 第一个 文档', '这是 第二个 文档', '这是 最后 一个 文档', '现在 没有 文档 了 文档']# 词袋统计words_list = []for corpu in corpus: words_list.append(co原创 2021-08-22 11:02:06 · 916 阅读 · 0 评论 -
文本表示方法--独热编码(One-Hot)
one-hot编码(每列只有一个1,其他都为0的一维矩阵)一.图示二.代码实现import numpy as np# 分词过的语料corpus = [ '这 是 第一个 文档', '这是 第二个 文档', '这是 最后 一个 文档', '现在 没有 文档 了']## 1.手动实现words = []for corpu in corpus: words.extend(corpu.split())words = list(set(words).原创 2021-08-21 21:45:52 · 1698 阅读 · 0 评论