- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 点互信息(PMI)预测utterance关键词
PMI(Pointwise Mutual Information)机器学习相关文献中,可以看到使用PMI衡量两个变量之间的相关性,比如两个词,两个句子。原理公式为:在概率论中,如果x和y无关,p(x,y)=p(x)p(y);如果x和y越相关,p(x,y)和p(x)p(y)的比就越大。从后两个条件概率可能更好解释,在y出现的条件下x出现的概率除以单看x出现的概率,这个值越大表示x和y
2018-01-16 21:16:00 18338 6
原创 机器学习中的precision, recall, accuracy, F值
假设用机器学习方法解决某个二元分类问题,在分析比较不同模型时常看到这些指标。四个概念:TP,FP,TN,FNTP(True Positive):在判定为positive的样本中,判断正确的数目。FP(False Positive):在判定为positive的样本中,判断错误的数目。TN(True Negative):在判定为negative的样本中,判断正确的数目。FN(Fal
2018-01-16 19:48:45 45955 13
原创 python中str字符串和unicode对象字符串的拼接问题
str字符串s = '中文' # s: s是个str对象,中文字符串。存储方式是字节码。字节码是怎么存的:如果这行代码在python解释器中输入&运行,那么s的格式就是解释器的编码格式;如果这行代码是在源码文件中写入、保存然后执行,那么解释器载入代码时就将s初始化为文件指定编码(比如py文件开头那行的utf-8);unicode对象字符串unicode是一种编码
2018-01-13 18:02:03 6372
原创 python中txt文件的编码转换问题utf-8转gbk
之前一直使用python内置的读写文件函数open,参数中不含encoding一项。它实际上是,读入文件是什么编码,写出文件就是什么编码。如今遇到一个问题,需要把一个utf8编码txt的部分内容另存,为了postprocess还要存成gbk编码。解决一:codecs模块的读写函数codecs.open# -*- coding: gbk -*-#!usr/bin/env pyt
2018-01-12 17:53:30 16384
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人