自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云淡风清

记录一下平常看过的好的文章

转载 工作流程与模型调优

1. 前序工作流程 1.1 数据部分 数据清洗:丢掉不可信的样本; 不用缺省值极多的字段。数据采样:采用下/上采样保证样本均衡。 1.2 特征工程   上一篇笔记重点讲了特征工程中的特征处理和特征选择。特征处理包括数值型、类别型、时间型、文本型、统计型和组合特征;特征选择包括过滤型、包裹型...

2016-07-12 16:08:07

阅读数 1336

评论数 0

原创 C++全角与半角互转

1.全角:指一个字符占用两个标准字符位置。汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。一般的系统命令是不用全角字符的,只是在作文字处理时才会使用全角字符。 2.半角:指一字符占用一个标准的字符位置。通常的英文字母、数字键、符号键都是半角的,半角的...

2016-03-11 10:30:08

阅读数 5380

评论数 0

转载 一文读懂机器学习,大数据/自然语言处理/算法全有了……

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正...

2016-01-26 11:54:22

阅读数 884

评论数 0

原创 使用boost正则表达式查找所有字符串

场景: 1.比如在html中查找出现过的标签,好提取图片地址. 2.编译器不支持C++11标准时使用boost库是比较好的选择. 例子: #include #include #include #include #include using namespace ...

2015-05-13 15:37:14

阅读数 1475

评论数 0

原创 Linux安装Mysql+Apach+PHP+php

一、安装mysql(mysql-5.0.21.tar.gz)    # tar zxf mysql-5.0.21.tar.gz # cd mysql-5.0.21 #./configure --prefix=/usr/local/mysql --sysconfdir=/etc --local...

2015-04-15 16:32:13

阅读数 807

评论数 0

原创 python中半角与全角互相转换

半角与全角的转换,代码如下: # -*- coding: cp936 -*- def strQ2B(ustring): """全角转半角""" rstring = "" for uchar i...

2015-01-09 11:01:32

阅读数 4611

评论数 0

转载 开发者必备的6款源码搜索引擎

摘要:虽然自己编码很重要,但是在遇到一个功能时,利用现成的代码不失为一种好方法,或许还会达到事半功倍的效果。但千万不要单纯地“用”,更多地是理解与提升,这样才会进步。 在推动技术变革上,开源运动发挥了非常显著的作用。而Linux成功地将开源转换成商务模式,给广大开源工作者带来了更大的信心和勇...

2014-09-24 14:19:38

阅读数 814

评论数 0

转载 经典算法大全

1.河内之塔........................................................................................................................................ 4 2.A...

2014-09-24 09:46:32

阅读数 3564

评论数 1

原创 扒网页并且解析

#!/usr/bin/python #coding=utf-8 import sys import re import urllib2 from urllib import urlencode from urllib import quote import time maxline = 20...

2014-09-19 15:45:52

阅读数 1574

评论数 0

原创 决策树算法实现(python)

''' Created on Oct 12, 2010 Decision Tree Source Code for Machine Learning in Action Ch. 3 @author: cainiao ''' from ma...

2014-09-15 10:55:58

阅读数 3346

评论数 1

原创 php数据库操作

function fuck_json(array &$data) {     $str = '';     $arr_root = array();     foreach($data['result'] as $row)     {  ...

2014-09-15 10:49:55

阅读数 526

评论数 0

转载 排序算法汇总总结

一、插入排序 直接插入排序(Insertion Sort)的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。插入排序在实现上,通常采用in-place排序(即只需用到O(1)的额外空间的排序),因而在从后向...

2014-09-05 11:03:07

阅读数 468

评论数 0

转载 C++虚函数表机制解析(转)

C++中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”,这是一种泛型技术。所谓泛型技术,说白了就是试图使用不变的代码来实现可变的算法。比如:模板技术,RTTI技术,虚函数...

2014-09-04 15:08:45

阅读数 509

评论数 0

转载 [转]读《Boost程序库完全开发指南》

第1章 Boost程序库总论 使用Boost,将大大增强C++的功能和表现力    第2章 时间与日期 timer提供毫秒级的计时精度,内部是通过std::clock取时间的progress_timer自动打印某生命周期的执行时间原则上程序库的代码是不应该被用户修改的pro...

2014-08-26 10:40:54

阅读数 1076

评论数 0

原创 决策树代码实现

代码说明

2014-08-19 15:57:23

阅读数 2380

评论数 0

转载 线性回归标准方程及其概率解释

线性回归作为一种监督学习方法,在机器学习领域中属于最基本的优化问题,即根据现有的数据集,找到一个能够最好拟合这组数据的线性函数即可,根据这个线性函数对新来的数据进行预测。 本文将会覆盖最简单的线性回归的解释和标准方程求解最优线性回归参数,至于梯度下降法求解,会有单独的另外一篇博客介绍。 ...

2014-07-17 20:02:05

阅读数 8154

评论数 1

转载 K-Means聚类的Python实践

K-Means应该是最简单的聚类算法之一了吧,理论上很简单,就是随即初始化几个中心点,不断的把他们周围的对象聚集起来,然后根据这群对象的重置中心点,不断的迭代,最终找到最合适的几个中心点,就算完成了。 然后,真正实践的时候才会思考的更加深入一点,比如本文的实践内容就是一个失败的案例(算法是成...

2014-07-17 17:56:07

阅读数 2415

评论数 0

转载 蓄水池抽样算法证明

这个题很老了,刚刚遇到一个类似的题目,不是让写怎么实现的,而是要证明结果确实是等概率,我了擦一下子忘了怎么证明了,以前竟然是把答案给背下来了,鄙视一下自己 原题:现在有一组数,不知道这组数的总量有多少,请描述一种算法能够在这组数据中随机抽取k个数,使得每个数被取出来的概率相等。 即假如...

2014-07-17 17:55:04

阅读数 1177

评论数 0

原创 MapReduce如何使用多路输出

Streaming支持多路输出(SuffixMultipleTextOutputFormat) 如下示例: hadoop streaming \ -input /home/mr/data/test_tab/ \ -output /home/mr/output/tab_test/out19 ...

2014-06-24 20:38:13

阅读数 5025

评论数 0

转载 文本向量表示及TFIDF词汇权值

文本相似计算是进行文本聚类的基础,和传统结构化数值数据的聚类方法类似,文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同,文本数据是一种半结构化数据,在进行文本挖...

2014-06-11 17:48:59

阅读数 1868

评论数 0

转载 字符编码笔记:ASCII,Unicode和UTF-8

1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符...

2014-05-15 20:28:02

阅读数 594

评论数 0

转载 算法杂货铺——k均值聚类(K-means)

4.1、摘要       在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时...

2014-03-08 17:53:44

阅读数 1356

评论数 0

转载 算法杂货铺——分类算法之决策树(Decision tree)

3.1、摘要       在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于...

2014-03-08 17:45:02

阅读数 2774

评论数 0

转载 算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)

2.1、摘要       在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强...

2014-03-08 17:29:45

阅读数 1301

评论数 0

转载 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

0、写在前面的话       我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。       一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太...

2014-03-08 16:56:03

阅读数 1456

评论数 1

原创 买房必知:需要什么手续 按揭买房需要哪些证件

各地的情况不同。一般是户口本,身份证,结婚证(单身提供单身证明),单位收入证明及银行流水账单,不同银行政策或许会有小分别。另外外地户口还需提供社保或纳税证明(各地年限不同)。 首先确保资格审核通过 全款买房需要的证件 一、需要准备的证件有: 1、已婚:夫妻双方的结婚证、身份...

2014-02-28 09:52:00

阅读数 822

评论数 0

转载 libsvm 使用介绍

一、介绍:         LIBSVM是台湾大学林智仁(Chih-Jen Lin)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件还有一...

2014-02-24 15:07:36

阅读数 941

评论数 0

转载 Linux下的Libsvm使用历程录

首先下载Libsvm、Python和Gnuplot: l         libsvm的主页http://www.csie.ntu.edu.tw/~cjlin/libsvm/上下载libsvm (我自己用2.86版本) l         python的主页http://www.python....

2014-02-24 15:06:14

阅读数 3679

评论数 0

转载 (转)职场警示:20不努力,30做助理

大二的表弟给我打电话,说大学生活很无聊,日子不知道该怎么打发。他是不想泡妞的,因为“时间还没到”,他内心深处隐隐认为应该做点什么,方不荒废青春,却不知该做些什么好。 我知道这孩子一向乖,也一向有毅力,不然以湖北的高考难度,也不能进入现在的全国重点。我问了他的学习和生活状况,他说家里给的生活费...

2014-02-10 18:26:57

阅读数 899

评论数 0

转载 TF-IDF及其算法

概念      TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比...

2014-02-10 18:19:08

阅读数 1001

评论数 0

转载 Hadoop Streaming命令

1 Streaming命令 使用下面的命令运行Streaming MapReduce程序: $HADOOP_HOME/bin/hadoop streaming args 其中args是streaming参数,下面是参数列表: -input 输入数据路径 ...

2013-11-22 10:48:38

阅读数 1247

评论数 0

转载 linux awk命令详解

简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,...

2013-11-18 10:16:02

阅读数 855

评论数 0

原创 python中的urlencode与urldecode

当url地址含有中文,或者参数有中文的时候,这个算是很正常了,但是把这样的url作为参数传递的时候(最常见的callback),需要把一些中文甚至'/'做一下编码转换。 一、urlencode urllib库里面有个urlencode函数,可以把key-value这...

2013-11-13 16:04:09

阅读数 209264

评论数 7

原创 python字符串操作(序)

在python有各种各样的string操作函数。在历史上string类在python中经历了一段轮回的历史。在最开始的时候,python有一个专门的string的module,要使用string的方法要先import,但后来由于众多的python使用者的建议,从python2.0开始, strin...

2013-11-13 15:44:07

阅读数 863

评论数 0

原创 C++写出关机、重启、注销、休眠等操作:

C++写出关机、重启、注销、休眠等操作,上代码: #include #include using namespace std; int main() { int i; cout<<"1、关机"<<endl <<"2...

2013-11-08 15:39:01

阅读数 1927

评论数 0

转载 Python正则表达式操作指南

字符匹配 大多数字母和字符一般都会和自身匹配。例如,正则表达式 test 会和字符串“test”完全匹配。(你也可以使用大小写不敏感模式,它还能让这个 RE 匹配“Test”或“TEST”;稍后会有更多解释。) 这个规则当然会有例外;有些字符比较特殊,它们和自身并不匹配,而是会表明应和一些特殊...

2013-11-06 14:56:53

阅读数 892

评论数 0

转载 Python distribution打包&安装流程

需求: 写了一堆自定义的模块,由于较为底层,其他模块想import的时候是十分悲剧的,各种找不到有木有,换个路径就郁闷,换台机器就悲剧 想类似python第三方模块一样,一个setup.py搞定,就能随便import 实现: python distribution,然后得到一个包了,...

2013-11-06 14:25:53

阅读数 945

评论数 0

转载 [Python]项目打包:5步将py文件打包成exe文件

1.下载pyinstaller并解压(可以去官网下载最新版): http://nchc.dl.sourceforge.net/project/pyinstaller/2.0/pyinstaller-2.0.zip 2.下载pywin32并安装(注意版本,我的是python2...

2013-11-06 11:21:22

阅读数 3093

评论数 1

原创 python中的字符串

字符串连接 方法1: 用字符串的join方法 a = ['a','b','c','d'] content = '' content = ''.join(a) print...

2013-11-05 18:03:18

阅读数 8045

评论数 1

原创 Hadoop实例:二度人脉与好友推荐

在新浪微博、人人网等社交网站上,为了使用户在网络上认识更多的朋友,社交网站往往提供类似“你可能感兴趣的人”、“间接关注推荐”等好友推荐的功能。一直很好奇这个功能是怎么实现的。其实,社交网站上的各个用户以及用户之间的相互关注可以抽象为一个图。以下图为例: 顶点A、B、C到I分别是社交网站的用户,...

2013-11-05 16:55:52

阅读数 2370

评论数 0

提示
确定要删除当前文章?
取消 删除