自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 【Python】—日志模块logging详解 多进程日志记录

文章目录1、 问题描述2、 分析2.1 `logging`模块实现日志回滚2.2 多进程日志安全输出到同一文件方案3、解决方案3.1 使用`ConcurrentRotatingFileHandler`包3.2 对日志输出加锁3.3 重写`FileHandler`类3.4 单独进程负责日志事件3.5...

2020-01-06 18:12:55

阅读数 42

评论数 0

原创 【Python】日志模块logging使用详解2

文章目录一、小总结二、Logger对象的日志等级三、使用多个处理器和多种格式化四、日志回滚1. RotatingFileHandler2. TimedRotatingFileHandler五、RotatingHandler存在的问题六、从多个进程记录至单个文件 本文作为Python日志模块的补充...

2020-01-03 18:34:36

阅读数 103

评论数 0

原创 【Python】—日志模块logging使用详解1

文章目录1、日志级别2、logging流程3、日志输出形式4、基本使用 部署项目时,不可能将所有的信息都输出到控制台中,因此我们将这些信息记录到日志文件中,不仅方便查看程序运行的情况,也可以在项目出现故障时根据该运行时产生的日志快速定位问题。 1、日志级别 Python标准库logging用做记录...

2020-01-02 17:18:35

阅读数 288

评论数 0

原创 Python 字符串前加r,b,u

目录问题描述1、字符串前加字母`u`2、字符串前加字母`r`3、字符串前加字母`b` 问题描述 在处理python代码的时候,经常可以看到字符串的前面有u, b, 或r字母,如下图所示: b'2019:12:26 07:52:16' 加上这些字母有什么意义呢? 1、字符串前加...

2019-12-31 13:01:18

阅读数 97

评论数 0

原创 图像元数据(Metadata) ——Exif信息分析

文章目录1、元数据1. 图片元数据2. 如何查看元数据2、图像Exif信息2.1 简介2.1 JPG文件结构2.2 Exif与TIFF的关系2.3 Exif元数据2.4 总结3、Exif工具3.1 Pillow库3.2 exiv23.3 exifread库3.4 piexif库4、Exif记录的信...

2019-12-27 17:54:52

阅读数 134

评论数 0

原创 Keras 图像预处理 ImageDataGenerator

本文目录1. 简介2. ImageDataGenerator类介绍使用示例3. ImageDataGenerator类方法3.1 fit()3.2 flow()3.3 flow_from_directory()3.4 flow_from_dataframe()3.5 standardize()4....

2019-12-24 08:52:24

阅读数 90

评论数 0

原创 kmcuda: GPU加速 Kmeans

文章目录1、kmcuda简介2、安装1. 查询gcc版本2. 查询GPU算力3. 配置GPU路径3、完整安装命令4、安装遇到的问题1. 使用pip安装2. 未指定GPU算力或使用默认值5、Python测试用例1. K-means, L2 (Euclidean) distance2. K-means...

2019-09-25 17:20:00

阅读数 224

评论数 0

转载 机器学习:Python实现聚类算法(一)之K-Means

转自 机器学习:Python实现聚类算法(一)之K-Means - lc19861217 - 博客园 1. 简介 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次...

2019-08-27 16:23:00

阅读数 47

评论数 0

原创 Rasa开发使用 Rasa_NLU及Rasa_Core模型训练与测试

文章目录Rasa术语Rasa_NLU1. 目标2. Pipeline3. 准备工作:训练MITIE模型文件4. rasa_nlu 语料5. 训练模型6. 测试验证Rasa Core1. Stories可视化stories2. Domain意图intents实体entities槽slotaction...

2019-08-20 18:05:56

阅读数 1940

评论数 2

原创 Python -m 参数

文章目录查看解释模块和脚本使用 查看解释 -m: run library modules as a script 将模块当做脚本运行。 模块和脚本 在python中,模块,就是一个由代码组成的普通脚本文件。通常会提供一些函数或者类。我们在调用模块中的函数或类时,通过import <mod...

2019-08-20 09:45:55

阅读数 135

评论数 0

原创 NLP工具——Gensim的model.keyedvectors模块

文章目录1、简介2、如何获取词向量3、使用这些词向量可以做什么? 1、简介 models.keyedVectors模块实现了词向量及其相似性查找。训练好的此线路与训练方式无关,因此他们可以由独立结构表示。 该结构称为KeyedVectors,实质上是实体和向量之间的映射。每个实体由其字符串id标识...

2019-08-13 16:11:13

阅读数 622

评论数 0

原创 NLP工具——Gensim 模型及词向量文件的保存与加载

文章目录1、Gensim2、保存与加载2.1 模型的保存与加载保存模型加载模型2.2 词向量文件的加载与保存保存加载 1、Gensim 官网: gensim: Topic modelling for humans Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监...

2019-08-13 15:45:19

阅读数 514

评论数 0

原创 NLP工具——NLTK 安装及使用

文章目录1、介绍2、安装3.1 安装NLTK3.2 安装NLTK Data交互式安装通过命令行安装手动安装3、Demo4、使用4.1 搜索文本(Searching Text)4.2 统计词频4.3 WordNet 1、介绍 【官网】Natural Language Toolkit — NLTK 3...

2019-08-09 13:42:50

阅读数 356

评论数 0

原创 NLP工具——Stanford CoreNLP的python封装包 处理中文

文章目录1、StanfordCoreNLP是什么?2、StanfordNLP是什么?3、StanfordNLP的使用3.1 安装3.2 运行3.3 如何处理中文?3.4 demo 1、StanfordCoreNLP是什么? CoreNLP项目是斯坦福大学开发的一套开源NLP工具包,包括词性(POS...

2019-08-08 14:47:43

阅读数 274

评论数 0

原创 NLP 命名实体识别 NER

文章目录1、命名实体识别简介1.1 定义1.2 NER标注方法1.3 难点1.4 发展趋势及主要方法1)基于词典规则匹配的方法2)基于特征的机器学习方式3)基于深度学习的方法2、主要方法2.1 CRF2.2 BiLSTM+CRF 对这几天看到的相关资料进行一个简单的记录。 1、命名实体识别简介 命...

2019-08-07 16:03:01

阅读数 64

评论数 0

转载 理解条件随机场(CRF)

转自: 如何轻松愉快地理解条件随机场(CRF)? 以简单易懂的具体例子来讲述什么是条件随机场。 定义CRF中的特征函数 现在,我们正式地定义一下什么是CRF中的特征函数,所谓特征函数,就是这样的函数,它接受四个参数: 句子s(就是我们要标注词性的句子) i,用来表示句子s中第i个单词 l_i,表...

2019-08-05 13:51:51

阅读数 62

评论数 0

原创 百度 UNIT 使用

文章目录1、什么是UNIT?2、 专业术语3、几个概念对话系统分类4、UNIT整体流程5、多轮对话技能创建1. 创建技能2. 配置意图及词槽3. 配置训练数据4. 训练模型5. 验证效果6、技能发布7、发布机器人 1、什么是UNIT? UNIT(Understanding and Interact...

2019-08-02 16:36:38

阅读数 43

评论数 0

原创 BERT 两种输入数据处理方式

文章目录TFRecord格式写文件读取第一种:TFRecord类型第二种:tf.data.Dataset TFRecord格式 TFRecord内部使用了“Protocol Buffer”** 二进制数据编码** 方案,它只占用一个内存块,只需要一次性加载一个二进制文件的方式即可,简单,快速,尤其...

2019-07-31 11:46:28

阅读数 441

评论数 0

原创 BERT 提取特征 (extract_features.py) 源码分析 代码简化

文章目录源码分析1. 输入参数2. 主流程3. read_examples4. convert_examples_to_features5. model_fn_builder()6. input_fn_builder代码简化 之前的文章介绍了如何使用Bert的extract_features.py...

2019-07-30 18:19:47

阅读数 510

评论数 0

原创 BERT BertModel类源码解析

本文目录1. 调用示例2. 初始化函数 源码位于: bert/modeing.py 1. 调用示例 BertModel类给出的调用代码示例: # Already been converted into WordPiece token ids input_ids = tf.con...

2019-07-30 15:34:22

阅读数 42

评论数 0

原创 BERT 文本分类 实操

本文目录0. 准备工作1. 数据集的准备2. 增加自定义数据类3. 修改predict输出4.fine-tuning模型 上篇文章介绍了如何安装和使用BERT进行文本相似度任务,包括如何修改代码进行训练和测试。本文在此基础上介绍如何进行文本分类任务。 文本相似度任务具体见: BERT介绍及中文文本...

2019-07-30 10:05:47

阅读数 753

评论数 4

原创 FastText进行文本分类实践

目录0、内容介绍1、FastText是什么?1.1 安装1.2 如何使用?A:单词表达模型B:文本分类模型C:使用量化压缩模型2、使用fastText训练文本分类模型2.1 训练数据准备2.2 训练模型2.3 模型保存与测试 0、内容介绍 本文主要介绍如何使用利用fastText进行文本分类任务,...

2019-07-23 18:44:20

阅读数 835

评论数 0

原创 短文本相似度算法

目录 一、无监督方法 1、余弦相似度度量 1.1 基于TF-IDF计算词频向量 1.2 基于Word2Vec计算词向量 2、基于simHash计算文本相似度 3、直接度量句子间相似度—WMD 二、有监督方法 一、无监督方法 1、余弦相似度度量 基本思想: 获取两个短文本的...

2019-07-15 14:51:14

阅读数 1451

评论数 0

转载 计算文本相似度方法总结

1、无监督,不适用额外标注数据 average word vectors:简单对句子中的所有词向量取平均,是一种简单有效的方法 缺点:没有考虑到单词的顺序,对15个字以内的短句子比较有效,丢掉了词与词间的相关意思,无法更精细的表达句子与句子之间的关系。 tfidf-weighting wo...

2019-07-15 10:31:31

阅读数 726

评论数 1

原创 simHash介绍及python实现

文章目录1、simHash简介2、simHash具体流程3、Python实现simHash 1、simHash简介 simHash算法是GoogleMoses Charikear于**年发布的一篇论文《Detecting Near-duplicates for web crawling》中提出的,...

2019-07-12 11:49:30

阅读数 667

评论数 0

原创 NLP之文本匹配及语义匹配应用介绍

文章目录1、什么是文本匹配?2、文本匹配方法概述2-1 传统文本匹配方法2-2 主题模型2-3 深度语义匹配模型表示型交互型3、语义匹配应用介绍3-1 短文本-短文本语义匹配3-2 短文本-长文本语义匹配案例1-用户查询-广告页面相似度案例2:文档关键词抽取3-3 长文本-长文本语义匹配案例3:新...

2019-07-11 18:11:57

阅读数 1107

评论数 0

原创 NLP基础知识

文章目录1、NLP简介自然语言处理的研究方向2、词法分析分词工具有哪些?JiebaHanLP3、句法分析4、文本表示**文本离散表示****文本分布式表示**工具 1、NLP简介 自然语言处理(Natural Language Processing, NLP)是计算机科学、人工智能、语言学的交叉学...

2019-07-11 12:01:47

阅读数 49

评论数 0

原创 NLP_基于酒店评论的情感分析

文章目录1、自然语言处理概述NLP意义与难点2、NLP核心问题与主要应用2.1 核心问题2.2 主要应用3、NLP中机器学习与深度学习方法3.1 NLP的机器学习与深度学习方法3.2 典型应用的解决效果4、NLP应用:基于评论情感分析的酒店挑选4.1 基础知识及项目背景4.2 解决方案A. 数据读...

2019-07-10 11:14:15

阅读数 379

评论数 0

转载 基于Text-CNN模型的中文文本分类实战

文章目录1、文本分类2、数据准备3、文本的预处理4、文本的数值化【词向量技术】5、文本分类模型Text_CNN模型6、模型的效果评估与调优1)文本分类中经常遇到的问题A 数据集类别不均衡B 文本分类模型的泛化能力C 模型过拟合2) 模型的上线方案7、基于Text-CNN模型的中文文本分类Demo ...

2019-07-09 17:02:40

阅读数 61

评论数 0

原创 Python基本数据类型——tuple, set

tuple 下标 注意: a[-1::-1] 表示从-1即倒数第一个元素开始,直到…,其中第二个:-1表示间隔是-1个元素,即从后往前,相当于对a的元素进行倒序 a = list(range(10)) # a [0,1,2,3,4,5,6,7,8,9] print(a[-2:-5:-1]...

2019-07-07 01:00:19

阅读数 25

评论数 0

原创 BERT之提取特征向量 及 bert-as-server的使用

本文内容列表提取句向量1、句向量简介1-1传统句向量1-2、BERT句向量2、 extract_features.py源码分析2-1 main函数 前一篇文章 BERT介绍及中文文本相似度任务实践 简单介绍了使用BERT进行中文文本相似度计算的方法,这篇文章着重对特征提取方法进行讲述。 提取句向量...

2019-07-05 18:54:33

阅读数 2199

评论数 4

原创 BERT介绍及中文文本相似度任务实践

本文内容列表BERT简介BERT源码分析1、从git上克隆代码2、下载预训练模型3、代码结构(fine-tuning)4、 run_classifier.py文件(中文文本相似度任务fine-tuning)1. 自定义数据类2. 增加自定义类3. 函数调用参数4. 训练模型5. 总结 BERT简介...

2019-07-05 15:46:59

阅读数 2968

评论数 3

原创 Windows系统启动python报文件编码错误

问题描述 在anaconda环境中启动python,出现如下错误: (base) D:\>python Python 3.7.3 (default, Mar 27 2019, 17:13:21) [MSC v.1915 64 bit (AMD64)] :: Anaconda, Inc. on...

2019-07-04 21:36:46

阅读数 98

评论数 1

原创 VS2010 扩展插件更新导致的APPCRASH

手贱将VS2010 的Visual Assist插件更新了,然后就需要破解,从网上找了破解的dll文件, 替换原来的VA_X.dll。 问题: 替换后,打开VS2010出现错误,程序崩溃,错误如下: 问题详情 问题签名:   问题事件名称: APPCRASH   应用程序名: devenv...

2016-08-25 18:11:07

阅读数 2004

评论数 0

转载 OpenCV HOG+SVM行人检测:从训练到检测

转载自该文章 格式进行修整 以现在使用的OpenCV 2.4.10为例,行人检测的Demo在“D:\opencv\sources\samples\cpp\peopledetect.cpp”下,源代码如下所示: #include "opencv2/imgproc/imgproc.hpp&q...

2016-06-01 11:35:39

阅读数 6560

评论数 0

转载 H.264(MPEG-4 AVC)级别(Level)、DPB 与 MaxDpbMbs 详解

对于H.264(MPEG-4 AVC)而言,级别(Level)是与档次(Profile)同等重要的参数。但很多文章说的很简略,只是说标清视频一般用3.1,高清用4,具体含义语焉不详。于是我做了一番研究。 一、级别详表    级别(Level)是用来约束 分辨率、帧率 和...

2015-09-24 15:19:18

阅读数 499

评论数 0

转载 视觉跟踪近年来的进展(2010年以前)——Advances in Visual Tracking

视觉跟踪近年来的进展(2010年以前)——Advances in Visual Tracking  转自:http://blog.csdn.net/tianzhaixing2013/article/details/44086867  注:本文整理自Ming HSuan Yang的Tut...

2015-03-23 17:37:30

阅读数 413

评论数 0

转载 缺少tbb_debug.dll

今天运行opencv时出现找不到tbb_debug.dll错误,网上搜了下,看到两种解决方案,都有效,留此笔记以备日后不时之需。 方法一:在opencv-2.3.1\build\common\tbb\ia32\vc10的下面有个tbb.dll文件,把它复制到你的工程debug目录下改成tbb...

2015-01-12 13:51:38

阅读数 480

评论数 0

转载 Linux makefile 教程 跟我一起写 Makefile

最近在学习Linux下的C编程,买了一本叫《Linux环境下的C编程指南》读到makefile就越看越迷糊,可能是我的理解能不行。             于是google到了以下这篇文章。通俗易懂。然后把它贴出来,方便学习。            后记,看完发现这篇文章和《Linux...

2014-08-12 14:17:57

阅读数 706

评论数 0

转载 VS2010下编译mp4v2及在项目中的使用

转自该处 最近做项目需要将H264文件封装为mp4文件,从网上找到了MP4V2库,下载下来后不知道从何下手,官方网站https://code.google.com/p/mp4v2/在windows下的编译过程介绍的很简短,对刚刚开始使用VS2010做大型项目的人来说,实在是有些无力。于是...

2014-07-23 14:53:06

阅读数 1744

评论数 1

提示
确定要删除当前文章?
取消 删除