2016年06月_tianbwin2995

转载机器学习算法及其并行化讨论

http://www.thebigdata.cn/JiShuBoKe/13723.html弄懂算法的核心，才知道能否并行三、LDA和MapReduce——可扩展的基础是数据并行　　因为MPI在可扩展性上的限制，我们可以大致理解为什么Google的并行计算架构上没有实现经典的MPI。同时，我们自然的考虑Google里当时最有名的并行计算框架MapReduce。　　MapReduce 的风格和MPI截

2016-06-28 11:02:22 6083

原创 shell编程初探

第一个test.sh 目的是为了检测收进参数的表述方式运行的时候 sh test.sh “1 2 3 4 5” 如果运行sh test.sh 1 2 3 4 5 那么cid_list 只收进1

2016-06-28 10:15:18 419

原创用gensim做LDA实践之文本分类

之前看LDA，一直没搞懂到底作用是什么，公式推导了一大堆，dirichlet分布求了一堆倒数，却没有真正理解精髓在哪里。最近手上遇到了一个文本分类的问题，采用普通的VSM模型的时候，运行的太慢，后来查找改进策略的时候，想起了LDA，因此把LDA重新拉回我的视线，也终于弄懂了到底是做什么的。LDA本质是一种降维为什么这么说，因为在我的文本分类问题中，文本共有290w个，根据词项得到的维度为90w个，这

2016-06-27 14:43:22 21966 14

转载非均衡数据集的分类问题

传统的机器学习分类研究大多基于如下假设：（1）分类以最大正确率为目标；（2）所有的分类错误会带来相同的错误代价；（3）数据集中的各类样本数目基本均衡，即各类所含的样本数大致相当。　　显然，这三个假设在现实应用领域中很多时候是不成立的。很多类别并不均衡，数据集中某个类别的样本数可能会远多于其他类别；不同的分类错误往往会带来显著不同的损失。例如信用卡交易中的欺诈识别。非均衡数据集（Imbalance D

2016-06-23 15:23:15 854

转载在分类中如何处理训练集中不平衡问题

原文地址：一只鸟的天空，http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题在很多机器学习任务中，训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡，为了使得学习达到更好的效果，因此需要解决该类别不平衡问题。Jason Brownlee的回答：原

2016-06-23 15:09:27 308

转载逻辑回归还是要多用离散变量

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：离散特征的增加和减少都很容易，易于模型的快速迭代；稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；逻辑

2016-06-23 14:51:41 4425

原创 vim使用总结

其实学了那么多，真正对操作文本很有用的就那么几条： gg—————— 光标移动到文章头 100gg—————— 光标移动到第100行的头j——————往下一行 100j——————往下100行 k——————往上一行 100k——————往上100行w——————往下一个单词 b——————往上一个单词yy——————复制一行 100yy——————复制光

2016-06-23 11:21:35 390

转载二分类问题的评价指标：ROC，AUC

ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣，对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点，以及更为深入地，讨论如何作出ROC曲线图以及计算AUC。 ROC曲线需要提前说明的是，我们这里只讨论二值分类器。对于分类器，或者说分类算法，评价指标主要有precision，re

2016-06-22 09:57:29 1600

转载结合Scikit-learn介绍几种常用的特征选择方法

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自己最熟悉或者最方便的特

2016-06-20 13:47:16 747

转载用Python开始机器学习（5：文本特征抽取与向量化）

http://blog.csdn.net/lsldd/article/details/41520953假设我们刚看完诺兰的大片《星际穿越》，设想如何让机器来自动分析各位观众对电影的评价到底是“赞”（positive）还是“踩”（negative）呢？这类问题就属于情感分析问题。这类问题处理的第一步，就是将文本转换为特征。因此，这章我们只学习第一步，如何从文本中抽取特征，并将其向量化。由于中文的处理涉

2016-06-16 17:25:10 693

转载 sklearn文本特征提取

词袋（Bag of Words）表征文本分析是机器学习算法的主要应用领域。但是，文本分析的原始数据无法直接丢给算法，这些原始数据是一组符号，因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题，scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征，比如说：标记（tokenizing）文本以及为每一个可能的标记（token）分配的一

2016-06-16 17:24:13 5230

转载文本分类中的特征选择

面试中被问到的一个问题，如何对文本划分类别？我提出用bag of words进行分类，但是词汇的数量比较大，特征维度比较高，涉及到特征选择的问题，我的回答是用图像中常见的LDA，PCA特征降维，但是翻看NLP相关的文献才知道一般是采用互信息，卡方统计量和词频分析。互信息与信息增益是等价的。把文档分成体育、游戏、娱乐这三类的例子中，如果一个单词在三类文档中出现的概率相同，那么这个单词对分类无意义，

2016-06-16 11:26:54 2573

转载 python 实现Hadoop的partitioner和二次排序

我们知道，一个典型的Map-Reduce过程包括：Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner，通过配置相应的参数就可以使用。通过 KeyFieldBasedPartitio

2016-06-16 09:15:50 1016

转载 Linux下载到window本地的方法

我使用过的Linux命令之sz - 下载文件，无需ftp/sftp本文链接：http://codingstandards.iteye.com/blog/827637 （转载请注明出处）用途说明sz命令是利用ZModem协议来从Linux服务器传送文件到本地，一次可以传送一个或多个文件。相对应的从本地上传文件到Linux服务器，可以使用rz命令。参见《我使用过的Linux命令之rz - 批量上

2016-06-15 18:29:34 1383

转载 Hadoop Streaming 实战：实用Partitioner类KeyFieldBasedPartitioner

我们知道，一个典型的Map-Reduce过程包括：Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner，通过配置相应的参数就可以使用。通过KeyFieldBasedPartitioner

2016-06-15 17:30:52 2458

转载 reducer里aggregate函数的使用

1.streaming的作用Haoop支持用其他语言来编程，需要用到名为Streaming的通用API。Streaming主要用于编写简单，短小的MapReduce程序，可以通过脚本语言编程，开发更快捷，并充分利用非Java库。HadoopStreaming使用Unix中的流与程序交互，从stdin输入数据，从stdout输出数据。实际上可以用任何命令作为mapper和reducer。数据流示意如下

2016-06-15 17:21:38 924

原创用Hadoop Streaming来写wordcount

Hadoop streaming里的key和value格式不一样，实际上虽然也是以K1，V1输入输出的，但是是以line的格式输出的。因此中间经过partition过后的K2，V2S的那个iterable的函数格式貌似是没有的！比如，我想写一个wordcount在Python中，标准输入输出格式是：import sysfor line in sys.stdin:每一行是一个输入，然后进入之后的K

2016-06-15 17:13:05 1167

转载文本分类

概览　　自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。　　文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。　　所谓文本分类,是指对所给出的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类.它是许多数据管理任务的重要组成部分

2016-06-15 13:41:04 1253

原创使用shell脚本操作mysql数据库

shell脚本操作mysql数据库，使用mysql的-e参数可以执行各种sql的(创建，删除，增，删，改、查)等各种操作。 mysql -hhostname -Pport -uusername -ppassword -e 相关mysql的sql语句，不用在mysql的提示符下运行mysql，即可以在shell中操作mysql的方法例子： mysql -h 117.121.54.220

2016-06-14 14:49:10 609

转载中文分词词性对照表

汉语词性对照表[北大标准/中科院标准] 词性编码词性名称注解Ag形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码

2016-06-13 18:22:17 540

原创 sys.argv的使用方法

在Python中，sys.argv中包含了基本上所有的参数。其中，sys.argv[0]代表所有参数，sys.argv[1]代表第一个参数…以此类推。注意，当你运行该Python文件时，需要把参数加进去一起运行。但是显示总参数个数的时候，是你的参数数量加一。不多说，看图：【另外，在shell中写一个Python文件的方法很简单，就是vim test.py，之后会自动帮你配置好相应的变量。

2016-06-13 15:50:38 2485

转载 shell awk 入门

awk：好用的数据处理工具awk 也是一个非常棒的数据处理工具！sed 常常用于一整个行的处理， awk 则比较倾向于一行当中分成数个『栏位』（或者称为一个域，也就是一列）来处理。因此，awk 相当的适合处理小型的数据数据处理呢！awk 通常运行的模式是这样的：[root@www ~]# awk ‘条件类型1{动作1} 条件类型2{动作2} …’ filenameawk 后面接两个单引号并加上大括号

2016-06-13 10:55:49 247

转载 Hadoop Streaming框架使用（一）

http://www.cnblogs.com/luchen927/archive/2012/01/16/2323448.html Streaming简介 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用，方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大，今天简单说一下。Streaming的原理是用Java实现一个包装用户程序的M

2016-06-13 10:33:13 338

转载 hadoop stream 参数详解

Hadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar -input myInputDirs -output myOutputDir -mapper /bin/c

2016-06-13 09:50:09 309

转载 Linux中的vi/vim

Linux vi/vim 所有的 Unix Like 系统都会内建 vi 文书编辑器，其他的文书编辑器则不一定会存在。但是目前我们使用比较多的是 vim 编辑器。vim 具有程序编辑的能力，可以主动的以字体颜色辨别语法的正确性，方便程序设计。相关文章：史上最全Vim快捷键键位图 — 入门到进阶什么是 vim？Vim是从 vi 发展出来的一个文本编辑器。代码补完、编译及错

2016-06-12 17:00:14 298

转载 Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数

http://c.biancheng.net/cpp/view/2739.html前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码：$echo $$运行结果29949特殊变量列表变量含义

2016-06-12 15:39:52 241

转载 Python 解析配置模块之ConfigParser详解

1 基本的读取配置文件-read(filename) 直接读取ini文件内容-sections() 得到所有的section，并以列表的形式返回-options(section) 得到1.基本的读取配置文件-read(filename) 直接读取ini文件内容-sections() 得到所有的section，并以列表的形式返回-options(section) 得到该s

2016-06-12 13:32:21 1271 1

转载 MapReduce初级案例

1、数据去重　　 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述　　对数据文件中的数据进行去重。数据文件中的每行都是一个数据。　　样例输入如下所示： 1）file1： 2012-3-

2016-06-11 23:02:36 587

转载分析MapReduce执行过程

转载:http://my.oschina.net/itblog/blog/275294分析MapReduce执行过程 MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图：

2016-06-11 20:47:46 410

转载 hadoop pipes应用别的语言

使用Hadoop Streaming技术。这项技术可以使得除了Java之外的多种其它语言如C/C++/Python/C#甚至shell脚本等运行在Hadoop平台下，程序只需要按照一定的格式从标准输入读取数据、向标准输出写数据就可以在Hadoop平台上使用，原有的单机程序稍加改动就可以在Hadoop平台进行分布式处理。使用Hadoop Pipes技术。该技术只专注于在Hadoop平台下运行C++程

2016-06-09 17:54:14 315

转载损失函数(Loss Function)

http://www.cnblogs.com/rocketfan/p/4083821.htmlLoss Function损失函数可以看做误差部分(loss term) + 正则化部分(regularization term)1.1 Loss TermGold Standard (ideal case)Hinge (SVM, soft m

2016-06-03 08:33:45 470

tianbwin2995的专栏