自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不眠旅行

You are in the picture

  • 博客(4)
  • 资源 (2)
  • 收藏
  • 关注

原创 点互信息(PMI)预测utterance关键词

PMI(Pointwise Mutual Information)机器学习相关文献中,可以看到使用PMI衡量两个变量之间的相关性,比如两个词,两个句子。原理公式为:在概率论中,如果x和y无关,p(x,y)=p(x)p(y);如果x和y越相关,p(x,y)和p(x)p(y)的比就越大。从后两个条件概率可能更好解释,在y出现的条件下x出现的概率除以单看x出现的概率,这个值越大表示x和y

2018-01-16 21:16:00 18338 6

原创 机器学习中的precision, recall, accuracy, F值

假设用机器学习方法解决某个二元分类问题,在分析比较不同模型时常看到这些指标。四个概念:TP,FP,TN,FNTP(True Positive):在判定为positive的样本中,判断正确的数目。FP(False Positive):在判定为positive的样本中,判断错误的数目。TN(True Negative):在判定为negative的样本中,判断正确的数目。FN(Fal

2018-01-16 19:48:45 45955 13

原创 python中str字符串和unicode对象字符串的拼接问题

str字符串s = '中文' # s: s是个str对象,中文字符串。存储方式是字节码。字节码是怎么存的:如果这行代码在python解释器中输入&运行,那么s的格式就是解释器的编码格式;如果这行代码是在源码文件中写入、保存然后执行,那么解释器载入代码时就将s初始化为文件指定编码(比如py文件开头那行的utf-8);unicode对象字符串unicode是一种编码

2018-01-13 18:02:03 6372

原创 python中txt文件的编码转换问题utf-8转gbk

之前一直使用python内置的读写文件函数open,参数中不含encoding一项。它实际上是,读入文件是什么编码,写出文件就是什么编码。如今遇到一个问题,需要把一个utf8编码txt的部分内容另存,为了postprocess还要存成gbk编码。解决一:codecs模块的读写函数codecs.open# -*- coding: gbk -*-#!usr/bin/env pyt

2018-01-12 17:53:30 16384

统计学习方法-课程讲义

清华大学课程《统计学习方法》讲义PPT,课程包含k-nearest,Naive Bayes,CART,SVM,Boost方法,EM算法,HMM,CRF等

2018-02-07

机器学习与自然语言处理-课程讲义PPT

北京大学王厚峰老师课程《机器学习与自然语言处理》PPT,可参考学习

2018-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除