2015年05月_我是一只小兔纸咿呀咿呀呦

原创 python中readlines和readline的区别

readline()一次读取文件的一行，通常比readlines()要慢得多。仅当没有足够内存可以一次读取整个文件时，才应该使用readline()；readlines()一次读取整个文件，跟read()一样，自动将文件内容分析称一个行的列表，该列表可以有python的for...in...结构进行处理；

2015-05-26 13:23:07 1944

原创 RecommenderIntro

1、RecommenderIntro.java 源代码：package com.zjuRabbit.rabbit.rabbit;import java.io.File;import java.io.IOException;import java.util.List;import org.apache.mahout.cf.taste.common.TasteException;im

2015-05-23 11:08:13 637

原创 maven下log4j的配置

1、在pom.xml加入这些dependency； org.slf4j slf4j-api 1.6.6 org.slf4j slf4j-log4j12 1.6.6 log4j log4j 1.2.16然后会发现dependencies中多了以下几个：2、将log4j.properties放到src/m

2015-05-23 11:00:55 24500

转载如何阅读别人的代码

网上搜到的一篇介绍阅读别人源代码的方法，放在这里，有空可以查看。阅读别人的代码作为开发人员是一件经常要做的事情。一个是学习新的编程语言的时候通过阅读别人的代码是一个最好的学习方法，另外是积累编程经验。如果你有机会阅读一些操作系统的代码会帮助你理解一些基本的原理。还有就是在你作为一个质量保证人员或一个小领导的时候如果你要做白盒测试的时候没有阅读代码的能力是不能完成相应的任务。

2015-05-20 14:17:21 450

原创 linux下python+numpy的安装

1. 下载python2.7.5，保存到 /data/qtongmon/softwarehttp://www.python.org/ftp/python/2. 解压文件tar xvf Python-2.7.5.tar.bz23. 创建安装目录mkdir /usr/local/python274. 安装python./configure --prefix=/u

2015-05-19 15:38:55 3473

转载深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

http://blog.csdn.net/xianlingmao/article/details/7919597在求取有约束条件的优化问题时，拉格朗日乘子法（Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法，对于等式约束的优化问题，可以应用拉格朗日乘子法去求取最优值；如果含有不等式约束，可以应用KKT条件去求取。当然，这两个方法求得的结果只是必要条件，只有

2015-05-17 10:45:16 451

原创 Maven project

mavenproject 创建：1、选择建立Maven Project 选择File -> New -> Other，在New窗口中选择 Maven -> Maven Project；点击next 2、选择项目路径 Usedefault Workspace location默认工作空间

2015-05-15 14:34:18 2852

原创 python 问题：Project interpreter not specified

1、从Eclipse的菜单 Window --> Preferences 打开首选项配置； 2、首选项配置页面，找到左边的PyDev项展开，点击Interpreter - Python 项(Interpreter是解释器的意思)，见图二； 3、然后点击右侧的 New... 按钮，Interpreter Name 不填写，为空也问题，选择python.exe的安装位置（见

2015-05-15 14:07:28 814

原创 python删除文件

shutil.rmtree(src) #删除指定非空文件夹

2015-05-15 09:40:54 503

原创 mahout问题

如果你遇到了如下问题Could not find mahout-examples-*.job in /home/hadoop/mahout-distribution-0.9 or /home/hadoop/mahout-distribution-0.9/examples/target, please run 'mvn install' to create the .job file

2015-05-15 08:57:58 584

原创 linux下mahout安装步骤

【mahout为新建目录,步骤为：cd /usr{切换目录到usr下}; mkdir mahout{新建mahout目录} 】复制四个文件到/usr/mahout下： à cp jdk-6u27-linux-i586.bin /usr/mahout à cp apache-maven-2.2.1-bin.tar.gz

2015-05-14 22:36:55 1851

原创 Eclipse+SVN

1.安装本文介绍的是在Windows+Eclipse下的SVN的使用方法，需要下在3个文件，考虑到版本不同，只给出首页地址，根据自己的环境选择：1.subversion http://subversion.tigris.org/ SVN主体部分2.tortoisesvn http://tortoisesvn.tigris

2015-05-14 10:56:09 419

原创 python open

open/文件操作f=open('/tmp/hello','w')#open(路径+文件名,读写模式)#读写模式:r只读,r+读写,w新建(会覆盖原有文件),a追加,b二进制文件.常用模式如:'rb','wb','r+b'等等读写模式的类型有：rU 或 Ua 以读方式打开, 同时提供通用换行符支持 (PEP 278)w 以写方式打开，a

2015-05-14 10:40:37 496

原创分布式数据分析挖掘系统

1. 数据分析挖掘在信息时代，公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。而信息时代的机器学习应用场景，如每天处理数以千计的个人电子邮件信息，从海量博客中推测用户的意图等，的输入数据通常都非常庞大，以至于无法在一台计算机上完全处理，即使这台计算机非常强大，如果没有快速并行处理的实现手段，这将是一项无法完成的任务，因此分布式数据分析挖掘系统逐渐成为了主流方向。目前的

2015-05-11 20:53:56 2072

原创 MahoutInAction进程

1、Maven安装完成；2、hadoop安装：a)、cygwin安装中。。。

2015-05-11 20:50:48 608

原创 Windows下安装Hadoop

http://www.cnblogs.com/kinglau/archive/2013/08/20/3270160.html1、安装JDK1.6或更高版本　　官网下载JDK，安装时注意，最好不要安装到带有空格的路径名下，例如:Programe Files，否则在配置Hadoop的配置文件时会找不到JDK（按相关说法，配置文件中的路径加引号即可解决，但我没测试成功）。2、

2015-05-11 20:46:34 423

原创 Windows下使用Cygwin模拟Linux环境安装配置过程

当年做毕设的时候没少折腾这个的说，安装过程好熟悉的感觉啊。。。http://blog.csdn.net/liu_jason/article/details/7705484在windows下通过安装cygwin模拟linux环境，然后再安装hadoop，是一种简单方便的方式。为hadoop准备的windows下cygwin环境安装过程如下：- 下载安装文件最新的cyg

2015-05-11 20:06:52 9246

原创 MIA------KNN

#encoding:utf-8'''Created on 2015年4月28日@author: zju'''from numpy import *import operatordef createDataSet(): group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = ['A', '

2015-05-10 16:14:48 434

原创矩阵归一化

a是一个m*n矩阵； b = a.min(para): 当para等于0时，b是一个1*n矩阵，是矩阵a每一列的最小值组成的矩阵；当para等于1时，b是一个1*m矩阵，是矩阵a每一行的最小值组成的矩阵；max同理！！！

2015-05-10 15:32:37 2475

原创 python pip的安装

前几天在公司的时候，明明都已经安装好了pip,然后几天没弄，今天一试用，竟然又不成了，真是郁闷。。。so再来重新安装一遍。1、首先安装setuptools:https://pypi.python.org/pypi/setuptools下载ez_setup.py的源码到python安装根目录然后运行ez_setup.py这个文件

2015-05-09 21:43:48 894

转载 Petuum源码解析

http://yinxusen.github.io/blog/2014/01/17/petuum-source-code-read-and-initial-test-result/Petuum: Source Code Read and Initial Test ResultJAN 17TH, 2014这几天为了测好Petuum，花了一点时间看了一下Petu

2015-05-08 20:22:08 1868

转载 petuum

http://www.cnblogs.com/wei-li/p/3786411.html十分钟了解分布式计算:PetuumPetuum是一个机器学习专用分布式计算框架，本文介绍其架构，并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server，NIPS 2013

2015-05-08 19:59:58 1550

转载 Myrrix

一、http://www.open-open.com/lib/view/open1372168198150.htmlMyrrix是一个完整的、实时的、可扩展的集群和推荐系统，基于Mahout实现。主要架构分为两部分：服务层：在线服务，响应请求、数据读入、提供实时推荐；计算层：用于分布式离线计算，在后台使用分布式机器学习算法为服务层更新机器学习模型。Myrrix使用这两个层

2015-05-08 19:49:22 1418

转载 Dodo

http://blog.163.com/jiayouweijiewj%40126/blog/static/1712321772011816101625959/一基于云计算的海量数据挖掘 2008年7 月，《Communications of the ACM》杂志发表了关于云计算的专辑，云计算因其清晰的商业模式而受到广泛关注，并得到工业和学术界的普遍认可。目前工业界推出的云计算

2015-05-08 19:44:03 569

转载 Oryx

http://www.oschina.net/p/oryxOryx的目标是帮助Hadoop用户搭建并部署能够实时查询的机器学习模型，例如垃圾邮件过滤和推荐引擎。随着数据的不断流入，Oryx还将支持自我更新。无论从建模还是部署，Oryx都可以随需扩展，Owen认为这是Oryx与Hadoop的传统“甜蜜点”——探索性分析和运营性分析最大的不同。Owen认为传统的在Hadoo

2015-05-08 19:43:09 1051

转载推荐系统开源软件列表汇总

http://blog.csdn.net/cserchen/article/details/14231153我收集和整理的目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system)，并附上了个人的一些简单点评（未必全面准确），这方面的中文资料很少见，希望对国内的朋友了解掌握推荐系统有帮助

2015-05-08 19:34:20 614

原创 Count Primes

Notes：埃拉托色尼筛法简介折埃拉托色尼选筛法(the Sieve of Eratosthenes)简称埃氏筛法，是古希腊数学家埃拉托色尼(Eratosthenes 274B.C.~194B.C.)提出的一种筛选法。是针对自然数列中的自然数而实施的，用于求一定范围内的质数，它的容斥原理之完备性条件是p=H~。步骤折叠(1)

2015-05-08 10:30:30 368

u011860731的专栏