SLP_L-CSDN博客

原创项目部署 -- Gunicorn + supervisor 管理Python项目

Article structure:Gunicornpreliminaryinstall and usagepros & conssupervisorinstall and usageGunicornGunicorn ‘Green Unicorn’(发音 jee-unicorn | green unicorn | gun-i-corn) 是一个被广泛使用的 Python WSGI UNIX HTTP 服务器，移植自 Ruby 的独角兽（Unicorn ）项目，采用 p

2021-04-21 08:18:48 1697

原创自然语言处理——基于隐马尔可夫模型的分词

文章结构HMM 基本概念HMM 与分词关系如何用 HMM 分词在自然语言处理 -分词初窥我们介绍了基于词典的（最大匹配）分词方法，这种方法依赖于现有的词典库，对于新词（也称未登录词，out of vocabulary, OOV），则无法准确的进行分词。针对 OVV 问题，本文着重阐述下如何利用 HMM 实现基于字的分词方法。利用 HMM 模型进行分词，主要是将分词问题视为一个序列标注（sequence labeling）问题。基本的思想就是根据观测值序列找到真正的隐藏状态值序列。在中文分词

2021-04-11 10:07:18 1652 1

原创 Get it Done is Everything ——The Cult of Done Manifesto

THE CULT OF DONE MANIFESTO有三种状态：不知道、行动和完成。接受一切都是草稿，这有助于完成事情。不存在编辑这个阶段。假装自己知道自己在做什么，几乎等于知道自己在做什么，所以接受自己知道自己在做什么，即使不知道也要去做。拒绝拖延症。如果你需求等待超过一周的时间来完成一个想法，就放弃它。做完的重点不是为了结束，而是做掉(更多)其他事。一旦你完成了，你就可以把它扔掉。去他妈的完美。它很无聊，让你无法完成你的任务。空谈误国、实干兴邦（就瞎jb翻）。失败也算做了。失误也算

2021-04-09 23:29:03 529 5

原创语音识别 --- 音频信号提取

音频信号特征提取的一般流程为：假设我们的语音信号采样频率为 8000Hz，语音数据在这里获取。import numpyimport scipy.io.wavfilefrom scipy.fftpack import dctsample_rate, signal = scipy.io.wavfile.read('OSR_us_000_0010_8k.wav') # sample_rate = 8000signal = signal[0:int(3.5 * sample_rate)] # 我

2021-04-02 11:29:07 4300 1

原创自然语言处理 - 二元语法与中文分词

二元语法与中文分词之前的一篇文章里(自然语言处理 - 分词初窥)中我们介绍并实现了基于词典的最大匹配分词方法。这种方法简单直观，且词典扩充很方便。但词典分词难以消除歧义，给定两种分词结果“商品和服务”以及“商品和服务”，词典分词不知道哪种更加合理。但对于人类来说，我们平时接触的都是第二种分词方案，所以我们知道第二种更加合理，因此可以判定第二种是正确地选择。这就是利用了统计自然语言处理。统计自然语言处理的核心话题之一，就是如何利用统计手法对语言建模，语言模型模型指的是对事物的数学抽象，那么语言

2021-01-21 10:20:44 3260

原创 Python 输出彩色日志及调用函数信息

彩色日志# coding:utf-8import loggingimport osfrom logging.handlers import RotatingFileHandlerimport colorlog # 控制台日志输入颜色log_colors_config = { 'DEBUG': 'cyan', 'INFO': 'green', 'WARNING': 'yellow', 'ERROR': 'red', 'CRITICAL': 'red',

2021-01-21 10:11:06 1115 1

原创自然语言处理 -分词初窥

中文分词是指的是将一段文本拆分为一系列单词的过程，这些单词顺序拼接后等于原文本。粗略的讲，中文分词方法分为基于字符串匹配的分词算法，基于理解的分词算法和基于统计的分词算法。基于字符串匹配的分词算法也称机械分词算法，它会提前维护一个大的字典，然后将句子和字典中的词进行匹配，若匹配成功，则可以进行分词处理。当字典足够大的时候，就需要考虑不同的匹配算法，通常会基于 Trie 树结构，来实现高效的词图扫描。基于统计的分词算法给出大量已经分词的文本，利用统计机器学习模型学习词语切分的规律（称为训练），

2021-01-18 10:19:04 1030

原创自然语言处理 -关键词提取之TFIDF方法

1. TF-IDF 简介TF-IDF（Terms Frequency-Inverse Document Frequency）主要思想：如果某个单词在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。词频（Term Frequency, TF），即一个词条在文本中出现的频率。逆向文件频率（Inverse Document Frequency, IDF），总文件数除以包含该词条的文件数，再取对数。包含词条的文档越少，则 IDF 越大，则说明词条有很好的

2021-01-14 08:10:23 2055

原创自然语言处理 - 关键词提取概述及工具

关键词提取概述关键词是能够表达文档中心内容的词语，一段话中通常有一个或者多个关键词。关键词提取常用于信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支，是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。从算法的角度来看，关键词提取算法主要有两类：无监督关键词提取方法和有监督关键词提取方法。无监督关键词提取方法不需要人工标注的语料，利用某些方法发现文本中比较重要的词作为关键词，进行关键词提取。该方法的思想是先抽取出候选词，然后对各个候选词进行打分，然后输出分

2021-01-12 10:03:11 2050

原创 Python 静态方法-实例方法语法及作用区别简析

Python 中有很多方法：实例方法（instance method），类方法（class method）与静态方法（static method）。本文从语法及用途上做一些简单对比。语法区别class HornHub: paied_users = 100 def __init__(self): pass def display(self, vid:str): print(vid) @classmethod def get_

2021-01-07 10:09:08 492

原创 GraphViz 绘制图形入门

DOT, GraphViz 简介DOT 是一种文本图形描述语言。DOT 语言文件通常具有 .gv 或是 .dot 的文件扩展名。在编写好 DOT 文件之后，需要有专门的程序处理这些文件并将其渲染成为图片，dot 就是其中一款程序，它可以将 DOT 语言描述的图形渲染成 GIF,PNG,SVG,PDF 等多种格式文件。GraphViz 是一个开源软件包，提供可以运行 DOT 文件的 dot 程序。Graphviz 中包含了众多的布局器：dot，默认布局方式，主要用于有向图neato，基于 s

2021-01-06 10:10:40 991

原创自然语言处理工具之 HanLP 鸟瞰

简介HanLP(Han Language Processing) 是一系列模型与算法组成的自然语言处理（Natural Language Processing, NLP）工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。自然语言处理技术优势：支持中文分词（N-最短路分词、CRF分词、索引分词、用户自定义词调、词性标注）、命名实体识别（中国人民、音译人民、日本人民，地名，实体机构名识别）、关键词提取、自动摘要、短语提取、拼音转换、简繁转换、文本推荐、依存句法分析（MaxEnt依

2021-01-05 09:51:26 518 1

SLP_L的博客

原创项目部署 -- Gunicorn + supervisor 管理Python项目

原创自然语言处理——基于隐马尔可夫模型的分词

原创 Get it Done is Everything ——The Cult of Done Manifesto

原创语音识别 --- 音频信号提取

原创自然语言处理 - 二元语法与中文分词

原创 Python 输出彩色日志及调用函数信息

原创自然语言处理 -分词初窥

原创自然语言处理 -关键词提取之TFIDF方法

原创自然语言处理 - 关键词提取概述及工具

原创 Python 静态方法-实例方法语法及作用区别简析

原创 GraphViz 绘制图形入门

原创自然语言处理工具之 HanLP 鸟瞰

原创 TensorFlow Serving 简要了解_v1

原创自动语音识别鸟瞰

原创曲线救国: 使用 Markdown 编辑器来写 Confluence 文档

原创 Python 生成器-迭代器-可迭代对象

原创 Python 两种可变参数区别

原创 TURN YOUR LIFE INTO A GAME

空空如也

空空如也