2018年01月_Joy_Shen

11月 09月 07月 06月 05月 04月 03月 02月 01月

原创点互信息(PMI)预测utterance关键词

PMI（Pointwise Mutual Information）机器学习相关文献中，可以看到使用PMI衡量两个变量之间的相关性，比如两个词，两个句子。原理公式为：在概率论中，如果x和y无关，p(x,y)=p(x)p(y)；如果x和y越相关，p(x,y)和p(x)p(y)的比就越大。从后两个条件概率可能更好解释，在y出现的条件下x出现的概率除以单看x出现的概率，这个值越大表示x和y

2018-01-16 21:16:00 18338 6

原创机器学习中的precision, recall, accuracy, F值

假设用机器学习方法解决某个二元分类问题，在分析比较不同模型时常看到这些指标。四个概念：TP，FP，TN，FNTP（True Positive）：在判定为positive的样本中，判断正确的数目。FP（False Positive）：在判定为positive的样本中，判断错误的数目。TN（True Negative）：在判定为negative的样本中，判断正确的数目。FN（Fal

2018-01-16 19:48:45 45955 13

原创 python中str字符串和unicode对象字符串的拼接问题

str字符串s = '中文' # s: s是个str对象，中文字符串。存储方式是字节码。字节码是怎么存的：如果这行代码在python解释器中输入&运行，那么s的格式就是解释器的编码格式；如果这行代码是在源码文件中写入、保存然后执行，那么解释器载入代码时就将s初始化为文件指定编码(比如py文件开头那行的utf-8)；unicode对象字符串unicode是一种编码

2018-01-13 18:02:03 6372

原创 python中txt文件的编码转换问题utf-8转gbk

之前一直使用python内置的读写文件函数open，参数中不含encoding一项。它实际上是，读入文件是什么编码，写出文件就是什么编码。如今遇到一个问题，需要把一个utf8编码txt的部分内容另存，为了postprocess还要存成gbk编码。解决一：codecs模块的读写函数codecs.open# -*- coding: gbk -*-#!usr/bin/env pyt

2018-01-12 17:53:30 16384

统计学习方法-课程讲义

清华大学课程《统计学习方法》讲义PPT，课程包含k-nearest，Naive Bayes，CART，SVM，Boost方法，EM算法，HMM，CRF等

2018-02-07

机器学习与自然语言处理-课程讲义PPT

北京大学王厚峰老师课程《机器学习与自然语言处理》PPT，可参考学习

2018-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 点互信息(PMI)预测utterance关键词

原创 机器学习中的precision, recall, accuracy, F值