2018年04月_ouprince

转载 python 传统学习 sklearn 模块

(1) sklearn.preprocessingfrom sklearn import preprocessingimport numpy as np#创建一组特征数据，每一行表示一个对象，每一列表示一个特征X = np.array([[1.,-1.,2.][2.,0.,0.] [0.,1.,-1.]])#将每一列标准化成标准...

2018-04-27 14:17:49 516

转载最快解释 SVM 原理

SVM -- 支持向量机，从名字就可以看出，跟向量紧密联系。好吧，说白了 SVM 就是将向量进行二分类的算法。什么是支持向量？在解释这个问题之前，先解释什么叫线性分割。一条线（一维）可以用一个点（零维）分成两半，一个平面（二维）可以用一条直线（一维）分成两半，一个空间（三维）可以用一个平面（二维）分成两半。。。假设我们的向量是 n 维，同样可以用 n-1 维的超平面分成两半，这就叫线...

2018-04-26 17:27:36 3293 1

卡方检验（Chi-square Test）卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的（“原假设”），然后观察实际值（观察值）与理论值（这个理论值是指“如果两者确实独立”的情况下应该有的值）的偏差程度，如果偏差足够小，我们就认为误差是很自然的样本误差，是测量手段不够精确导致或者偶然发生的，两者确确实实是独立的，此时就接受原假设...

2018-04-26 14:25:15 1386

转载 python cPickle 模块

pickle 模块使用的数据格式是 python 专用的，并且不同版本不向后兼容，同时也不能被其他语言识别。cPickle 是 pickle 的一个更快的 C 语言编译版本。pickle 和 cPickle 相当于 Java 的序列化和反序列化操作。使用 pickle 模块可以把python 对象直接保存到文件，而不需要把它们转化成字符串，也不用底层的文件访问操作把它们写入到一个二进制文...

2018-04-26 10:49:47 1185

转载 N-gram 特征提取

N-gram 是一种基于统计语言模型的算法，又被称为一阶马尔科夫链。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作，形成了长度是 N 的字节片段序列。每一个字节片段称为 gram，对所有的 gram 的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键 gram 列表，也就是这个文本的向量特征空间。列表中的每一种 gram 就是一个特征向量维度。算法优点：1...

2018-04-26 09:48:08 14598 4

转载 python termcolor 模块 -- 控制台输出颜色

termcolor 支持以下颜色：grey, red, green, yellow, blue, magenta, cyan, white支持以下以下背景高亮：on_grey, on_red, on_green, on_yellow, on_blue, on_magenta, on_cyan, on_white支持以下属性：bold, dark, underline, blin...

2018-04-25 11:28:55 2877 1

转载 python 参数模块 getopt 与 argparse

在写python时经常有两种参数引入模块。1.getopt 模块个人经常使用的这个模块，方便简洁，跟 sys 模块配合使用import sys,getoptoprts,args = getopt.getopt(sys.argv[1:],'h:o,i:',['input=','output=','help',''])# 短参数 -h,-o,-i ,长参数 --input= , --...

2018-04-25 10:42:24 1833

转载 python codecs 模块踩坑记

之前在使用 codecs 模块进行文件读写的时候，常用习惯代码如下：import codecs#读取data = codecs.open("file_name","r","utf-8").read()#写入fw = codecs.open("file_name","w","utf-8")fw.write(data)之前这么写好像也没什么问题，但在写入后读取的过程中却一直出现程...

2018-04-24 16:34:54 3014

转载关于json格式python中文编码问题

当json格式包含中文字符时，总是出现 u"xxxxx" 的格式或者 "\xxx" 的字符编码，而非中文字符，那么如何转换成中文字符呢？#-*- coding:utf-8 -*-import jsonword = "我喜欢你"ss = []ss.append(word)#方法一， decode("raw_unicode_escape")print json.dumps(ss)....

2018-04-23 09:26:47 695 1

转载 Chinese-Whispers 代码实践与调节

关于Chinese-whispers 的原理不再累述，可见之前的博客或者github中的论文翻译。代码有两个版本：主要的修改对比如下1.处理过程中预处理的精化在第一版本的基础上，加强了文本预处理的精度，比如停止词和一些数据过滤处理。对效果稍微起到一点更好的效果，但不是很明显的提升。2.相似度算法的优化在原版的基础上，计算句子相似度时，考虑到了分词的不完全性和句子长度的差异性，修...

2018-04-16 19:12:23 1678 4

转载详解 KDTree

简介kd树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。一个KDTree的例子上图的树就是一棵KDTree，形似二叉搜索树，其实KDTree就是二叉搜索树的变种。这里的K = 3.首先来看下树的组织原则。将每一个元组按0排序（第一项序号为0，第二项序号为1，第三项序号为2），在树的第n层，第 n%3 项被用粗...

2018-04-11 15:56:17 1506

转载实战智能推荐系统（14）-- 推荐系统架构

外围架构一般来说，每个网站都有一个 UI 系统，UI 系统负责给用户展示网页并和用户交互。网站会通过日志系统将用户在 UI 上的各种各样的行为记录到用户行为日志中。从上面的结构可以看到，除了推荐系统本身，主要还依赖两个条件--界面展示和用户行为数据。推荐系统架构推荐系统联系用户和物品的主要方式如下图所示。如果将这三种方式都抽象一下就可以发现，如果认为用户喜欢的物品也是一种用户特...

2018-04-03 10:47:32 13548 9

转载实战智能推荐系统（13）-- 推荐系统的时效性

时效性推荐系统应该考虑时间效应，因为用户的兴趣是有时间变化的。用户一年前喜欢的东西现在不一定感兴趣，相比于推荐过去喜欢的物品，推荐用户近期喜欢的物品更有参考价值。而在新闻更是如此，推荐过去跟用户兴趣一致的新闻已经失去了意义。每个系统时间效应的大小不同，比如时间对电影的作用就没有新闻那么明显。要考虑时效性，必须加入时间参数，比如三元组(用户,物品,时间）代替简单的二元组(用户,物品)。给定时间 ...

2018-04-02 14:43:06 3506 2

ouprince