自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 结巴分词源码学习------词最大概率计算

#词最大概率计算 # sentence 我来到北京清华大学 #dag 结构<class 'dict'>: {0: [0], 1: [1, 2], 2: [2], 3: [3, 4], 4: [4], 5: [5, 6, 8], 6: [6, 7], 7: [7, 8], 8: [8]} # # logtotal 17.91155312775522 #route 结...

2020-04-28 12:14:21 468

原创 jieba分词源码学习-------基于前缀词典的词典树构建

def gen_pfdict(self, f): lfreq = {} #词频字典 ltotal = 0 f_name = resolve_filename(f) #——compat.py中的函数 return f.name ??? #从索引1 开始遍历文件, """ 词典格式 词 词频 词性 AT&T 3 nz ...

2020-04-28 12:12:47 310

原创 结巴分词源码学习------有向图的构造

""" #self.FREQ结构 {word : freq} # sentence 我来到北京清华大学 len=9 # 有向无环图的构造, dag 结构<class 'dict'>: {0: [0], 1: [1, 2], 2: [2], 3: [3, 4], 4: [4], 5: [5, 6, 8], 6: [6, 7], 7: [7, 8], ...

2020-04-26 16:47:00 234

原创 jieba源码学习------TF-IDF方法 计算词权重

# encoding=utf-8from __future__ import absolute_importimport osimport jiebaimport jieba.possegfrom operator import itemgetter_get_module_path = lambda path: os.path.normpath(os.path.join(os.ge...

2020-04-23 16:50:48 1144

原创 python 迭代list列表同时pop操作 报list index out of range错误问题

from numpy import *import numpy as npimport osl = [1,2,3,4,5]"""python迭代列表并且pop元素的问题从列表最后一个元素开始遍历并且pop元素不会有问题,相当于for i in range(len(l)-1,-1,-1) 或者 for i in range(len(l))[::-1]如果从前开始遍历,每pop一个词,...

2020-04-21 11:22:58 6418

原创 python数据预处理学习笔记——自定义去停用词

import re,jieba,sys"""Description:自定义去停用词Prompt: code in Python3.7 env安装jieba分词 pip install jieba"""#读取文本信息def readfile(path): str_doc = '' #只读方式打开文件 with open(path,'r',encoding=...

2020-04-21 11:07:49 1921

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除