qiaokeli8295-CSDN博客

原创结巴分词源码学习------词最大概率计算

#词最大概率计算 # sentence 我来到北京清华大学 #dag 结构<class 'dict'>: {0: [0], 1: [1, 2], 2: [2], 3: [3, 4], 4: [4], 5: [5, 6, 8], 6: [6, 7], 7: [7, 8], 8: [8]} # # logtotal 17.91155312775522 #route 结...

2020-04-28 12:14:21 581

原创 jieba分词源码学习-------基于前缀词典的词典树构建

def gen_pfdict(self, f): lfreq = {} #词频字典 ltotal = 0 f_name = resolve_filename(f) #——compat.py中的函数 return f.name ？？？ #从索引1 开始遍历文件， """ 词典格式词词频词性 AT&T 3 nz ...

2020-04-28 12:12:47 405

原创结巴分词源码学习------有向图的构造

""" #self.FREQ结构 {word : freq} # sentence 我来到北京清华大学 len=9 # 有向无环图的构造， dag 结构<class 'dict'>: {0: [0], 1: [1, 2], 2: [2], 3: [3, 4], 4: [4], 5: [5, 6, 8], 6: [6, 7], 7: [7, 8], ...

2020-04-26 16:47:00 352

原创 jieba源码学习------TF-IDF方法计算词权重

# encoding=utf-8from __future__ import absolute_importimport osimport jiebaimport jieba.possegfrom operator import itemgetter_get_module_path = lambda path: os.path.normpath(os.path.join(os.ge...

2020-04-23 16:50:48 1296

原创 python 迭代list列表同时pop操作报list index out of range错误问题

from numpy import *import numpy as npimport osl = [1,2,3,4,5]"""python迭代列表并且pop元素的问题从列表最后一个元素开始遍历并且pop元素不会有问题，相当于for i in range(len(l)-1,-1,-1) 或者 for i in range(len(l))[::-1]如果从前开始遍历，每pop一个词，...

2020-04-21 11:22:58 7450

原创 python数据预处理学习笔记——自定义去停用词

import re,jieba,sys"""Description:自定义去停用词Prompt: code in Python3.7 env安装jieba分词 pip install jieba"""#读取文本信息def readfile(path): str_doc = '' #只读方式打开文件 with open(path,'r',encoding=...

2020-04-21 11:07:49 2078

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 结巴分词源码学习------词最大概率计算

原创 jieba分词源码学习-------基于前缀词典的词典树构建

原创 结巴分词源码学习------有向图的构造

原创 jieba源码学习------TF-IDF方法 计算词权重

原创 python 迭代list列表同时pop操作 报list index out of range错误问题

原创 python数据预处理学习笔记——自定义去停用词

空空如也

空空如也

原创结巴分词源码学习------词最大概率计算

原创结巴分词源码学习------有向图的构造

原创 jieba源码学习------TF-IDF方法计算词权重

原创 python 迭代list列表同时pop操作报list index out of range错误问题