第二节机器学习--NPL基础

本文介绍了自然语言处理(NLP)的基础,包括文本相似度分析的步骤,如分词、词袋模型、TF-IDF算法。通过将评论转化为机器可理解的词向量,利用TF-IDF计算每条评论与其他评论的相似度,以识别相似内容。
摘要由CSDN通过智能技术生成

一、NPL

1、NPL:Natural Language Processing 自然语言处理。
2、文本相似度分析:从海量数据(文章,评论)中,把相似的数据挑选出来
步骤:

  1. 把评论翻译成机器看的懂的语言
  2. 使用机器看的懂得算法轮询去比较每一条和所有评论的相似程度
  3. 把相似的评论挑出来

2.1、把评论翻译成机器看的懂的语言

  1. 分词
  2. 制作词袋模型
  3. 用词袋模型制作语料库
  4. 把评论变成词向量

2.2、使用机器看的懂得算法轮询去比较每一条和所有评论的相似程度(TF-IDF)
2.2.1不考虑停用词(就是没什么意义的词),找出一句话中出现次数最多的单词,来代表这句话,这个就叫做词频(TF – Term Frequency),相应的权重值就会增高。
2.2.2、如果一个词在所有句子中都出现过,那么这个词就不能代表某句话,这个就叫做逆文本频率(IDF – Inverse Document Frequency)相应的权重值就会降低。
2.2.3、TF-IDF = TF * IDF。
TF公式:
在这里插入图片描述
IDF公式:
在这里插入图片描述

3、例题:

#encoding:utf-8
import pprint
import csv
import jieba.analyse
from gensim import corpora,models,similarities

with open('./ChnSentiCorp_htl_all.csv','r',encoding='UTF-8') as f:
    reader = csv.reader(f)
    reader_list = list(reader)
    new_seg_list = []
    for row in reader_list[1:11]:
        text = row[1]
        seg_list = jieba.cut(text,cut_all=False)
        seg_list1 = list(seg_list)
        new_seg_list.append(seg_list1)
    # pprint.pprint(new_seg_list)

#提取每一个词并且标注,储存在字典中
dictionary = corpora.Dictionary(new_seg_list)


#制作语料库

corpus = [dictionary.doc2bow(doc) for doc in new_seg_list]
print('语料库:',corpus)
co
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值