- 博客(6)
- 收藏
- 关注
原创 结巴分词源码学习------词最大概率计算
#词最大概率计算 # sentence 我来到北京清华大学 #dag 结构<class 'dict'>: {0: [0], 1: [1, 2], 2: [2], 3: [3, 4], 4: [4], 5: [5, 6, 8], 6: [6, 7], 7: [7, 8], 8: [8]} # # logtotal 17.91155312775522 #route 结...
2020-04-28 12:14:21
468
原创 jieba分词源码学习-------基于前缀词典的词典树构建
def gen_pfdict(self, f): lfreq = {} #词频字典 ltotal = 0 f_name = resolve_filename(f) #——compat.py中的函数 return f.name ??? #从索引1 开始遍历文件, """ 词典格式 词 词频 词性 AT&T 3 nz ...
2020-04-28 12:12:47
310
原创 结巴分词源码学习------有向图的构造
""" #self.FREQ结构 {word : freq} # sentence 我来到北京清华大学 len=9 # 有向无环图的构造, dag 结构<class 'dict'>: {0: [0], 1: [1, 2], 2: [2], 3: [3, 4], 4: [4], 5: [5, 6, 8], 6: [6, 7], 7: [7, 8], ...
2020-04-26 16:47:00
234
原创 jieba源码学习------TF-IDF方法 计算词权重
# encoding=utf-8from __future__ import absolute_importimport osimport jiebaimport jieba.possegfrom operator import itemgetter_get_module_path = lambda path: os.path.normpath(os.path.join(os.ge...
2020-04-23 16:50:48
1144
原创 python 迭代list列表同时pop操作 报list index out of range错误问题
from numpy import *import numpy as npimport osl = [1,2,3,4,5]"""python迭代列表并且pop元素的问题从列表最后一个元素开始遍历并且pop元素不会有问题,相当于for i in range(len(l)-1,-1,-1) 或者 for i in range(len(l))[::-1]如果从前开始遍历,每pop一个词,...
2020-04-21 11:22:58
6418
原创 python数据预处理学习笔记——自定义去停用词
import re,jieba,sys"""Description:自定义去停用词Prompt: code in Python3.7 env安装jieba分词 pip install jieba"""#读取文本信息def readfile(path): str_doc = '' #只读方式打开文件 with open(path,'r',encoding=...
2020-04-21 11:07:49
1921
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人