3.4分词

在这里插入图片描述
分词技术:
1.统计分词法(最好的,按词频)
a.nGram
b.隐马尔可夫,HMM
c 条件随机场

机械分词法

a正向最大分类法(从左到右)
2逆向最大匹配法(从右到左)
c:最少切分(

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
Tf idf 计算词的重要性
在这里插入图片描述

在这里插入图片描述

import jieba
import jieba.posseg as jp  #lcut  cut 分词,获取词性   i.flag 词性 ,i.word 词
#cut(字符串,cut_all=是否切出所有可能的词)  #返回一个迭代器
#lcut(字符串,cut_all=是否切出所有可能的词)  #返回一个分词列表
#cut_for_search  #相当于 cut 或 lcut 的cut_all =True , 对长词再分
#jieba.add_word(词,词频) #像字典中加入新词
#jieba.load_userdict(文本文件名) #添加字典
#文本文件 格式
    #真特刘  2000
    #你好 200
#jieba.del_word(词) #删除字典的词
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Captain_Data

打赏一下~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值