自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

转载 史上最直白的logistic regression教程 之 一

本系列前四篇是随手涂鸦,只为讲清问题,有口语化,且有少数符号误写,以及重复絮叨,且不打算修改:) 第5篇提供了一个严谨的学术语言的完整pdf文档,敬请下载! Logistic Regession是什么 Logistic Regression是线性回归,但最终是用作分类器:它从样本...

2017-01-17 09:50:00 131

转载 史上最直白的logistic regression教程 之 一

本系列前四篇是随手涂鸦,只为讲清问题,有口语化,且有少数符号误写,以及重复絮叨,且不打算修改:) 第5篇提供了一个严谨的学术语言的完整pdf文档,敬请下载! Logistic Regession是什么 Logistic Regression是线性回归,但最终是用作分类器:它从样本...

2017-01-17 09:50:00 127

转载 史上最直白的logistic regression教程 之 一

本系列前四篇是随手涂鸦,只为讲清问题,有口语化,且有少数符号误写,以及重复絮叨,且不打算修改:) 第5篇提供了一个严谨的学术语言的完整pdf文档,敬请下载! Logistic Regession是什么 Logistic Regression是线性回归,但最终是用作分类器:它从样本...

2017-01-17 09:50:00 89

转载 weka实战004:fp-growth关联规则算法

apriori算法的计算量太大,如果数据集略大一些,会比较慢,非常容易内存溢出。 我们可以算一下复杂度:假设样本数有N个,样本属性为M个,每个样本属性平均有K个nominal值。 1. 计算一项频繁集的时间复杂度是O(N*M*K)。 2. 假设具有最小支持度的频繁项是q个,根据它们...

2017-01-17 09:47:00 868

转载 weka实战005:基于HashSet实现的apriori关联规则算法

这个一个apriori算法的演示版本,所有的代码都在一个类。仅供研究算法参考 package test;import java.util.Collections;import java.util.HashMap;import java.util.HashSet;impor...

2017-01-17 09:47:00 110

转载 TensorFlow试用

Google发布了开源深度学习工具TensorFlow。 根据官方教程 http://tensorflow.org/tutorials/mnist/beginners/index.md 试用。 操作系统是ubuntu 14.04,64位,python 2.7,已经安装足够的...

2017-01-17 09:47:00 102

转载 weka实战001:一篇博文简单了解weka

weka是java写的开源模式识别和数据挖掘软件,已经有十多年的历史了。weka的官网在http://www.cs.waikato.ac.nz/ml/weka/。 模式识别和数据挖掘有四个问题, 第一:问题是什么 第二:数据是什么 第三:如何学习 第四:学习结果可靠吗? ...

2017-01-17 09:46:00 99

转载 weka实战002:apriori关联规则算法

关联规则算法最出名的例子就是啤酒和尿布放一起卖。 假如我们去超市买东西,付款后,会拿到一张购物清单。这个清单就是一个Transaction。对关联规则算法来说,每个产品的购买数量是无意义的,不参与计算。 许许多多的人买东西,生成了N个购物清单,也就是N个Transaction。...

2017-01-17 09:46:00 541

转载 weka实战003:apriori关联规则算法的实现

weka实现的apriori算法是在weka.associations包的Apriror类。 在这个类,挖掘关联规则的入口函数是public void buildAssociations(Instances instances),而instances就是数据集,检查数据,设置参数,初始...

2017-01-17 09:46:00 426

转载 Hadoop 1.x的Task,ReduceTask,MapTask随想

Hadoop的技术体系,最令人称赞的是细节。它的基本原理是非常容易理解的,细节是魔鬼。 hadoop的hdfs是文件系统存储,它有三类节点namenode, scondraynamenode, datanode,前两种在集群分别只有一个节点,而datanode在集群有很多个。hdfs的...

2017-01-17 09:45:00 253

转载 Hadoop 1.x的Shuffle源码分析之1

先参考董西成的博文 http://dongxicheng.org/mapreduce/hadoop-shuffle-phase/ Hadoop中shuffle阶段流程分析 Hadoop的一个任务执行过程,分为Map和Reduce两个阶段。而shuffle发生在Reduc...

2017-01-17 09:44:00 86

转载 Hadoop 1.x的Shuffle源码分析之2

ReduceTask类的内嵌类ReduceCopier的内嵌类MapOutputCopier的函数copyOutput是Shuffle里最重要的一环,它以http的方式,从远程主机取数据:创建临时文件名,然后用http读数据,再保存到内存文件系统或者本地文件系统。它读取远程文件的函数是getM...

2017-01-17 09:44:00 66

转载 Hadoop 1.x的Shuffle源码分析之3

shuffle有两种,一种是在内存存储数据,另一种是在本地文件存储数据,两者几乎一致。 以本地文件进行shuffle的过程为例: mapOutput = shuffleToDisk(mapOutputLoc, input, filename, com...

2017-01-17 09:44:00 64

转载 apache oozie安装试用

oozie是hadoop的工作流Scheduler,最新的版本到4.0.1了。试用了下,小坑还蛮多的。 1. 编译 我的主机上跑的是Hadoop 1.1.2,选的是oozie 3.3.0版本,下载源码,解压缩。 首先,要把源码里的javaversion从1.6改成1.7,...

2017-01-17 09:43:00 132

转载 HBase 二次开发 java api和demo

1. 试用thrift python/java以及hbase client api,结论如下: 1.1 thrift的安装和发布繁琐,可能会遇到未知的错误,且hbase.thrift的版本在变化中。优点代码简单,需要打包的内容少。 1.2 hbas...

2017-01-17 09:43:00 85

转载 weka实战001:一篇博文简单了解weka

weka是java写的开源模式识别和数据挖掘软件,已经有十多年的历史了。weka的官网在http://www.cs.waikato.ac.nz/ml/weka/。 模式识别和数据挖掘有四个问题, 第一:问题是什么 第二:数据是什么 第三:如何学习 第四:学习结果可靠吗? ...

2017-01-17 09:43:00 79

转载 一个网站的诞生03--抓取评论数最多的一万家餐厅

在大众点评网上,有很多种方式对餐厅进行排序,比如 http://www.dianping.com/search/category/1/10/o10 ,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但只有750家,少了点。上海有18...

2017-01-17 09:42:00 69

转载 一个网站的诞生04--抓取一个餐厅的某个月的全部评论

第一个Spider是抓上海的城市id,顺带抓它的下一级行政区id。 第二个Spider是抓上海的Top一万家餐厅的Shopid。 本文是第三个Spider,根据一个餐厅的Shopid,抓取它在某个月内的全部评论。 三个Spider的累加效果,就是抓取任意一个城市的TopN家餐厅的全...

2017-01-17 09:42:00 332

转载 一个网站的诞生05--如何把网站做到估值过亿

如何计算一个网站的估值?国际标准是每个活跃用户的价值是40刀左右,Whatsapp卖了190亿刀,它有4.5亿活跃用户。中国略有差别,微信的估值是40亿~50亿刀,有3亿用户,但中国的用户商业价值不够高,人均GDP太低,所以每个活跃用户的价值是10~15刀,也就是RMB60~90元。...

2017-01-17 09:42:00 256

转载 一个网站的诞生06-- ORM

于是,ORM就出现了。 ORM是Object Relation Model,也就是 对象关系映射。简而言之,ORM将将数据库的记录表示成对象。选择一个好的ORM,由它的层面解决数据库和SQL语言问题,可以很开心。程序里用ORM好处多多,不需要写SQL语言了,更换新数据库只...

2017-01-17 09:42:00 53

转载 一个网站的诞生07-- Tornado Web Server

那么,就需要一个Web Server。 几乎每种语言都有一大堆Web Server开发框架,Python也不例外,比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng....

2017-01-17 09:42:00 145

转载 一个网站的诞生08-- 在Web App嵌入地图

提供地图API服务的公司很多,国外有GoogleMap,OpenStreetMap,国内有百度地图,腾讯地图,高德地图。GoogleMap由于某些原因不能正常使用,不在选择之列。我最先考虑的是OpenStreetMap,因为除了GoogleMap之外它最有美感,www.zillow....

2017-01-17 09:42:00 119

转载 一个网站的诞生09--自动监控

部署Web App,需要买一个域名,我推荐 http://www.namecheap.com/ ,用信用卡或者paypal付款,一年10刀。 如果需要VPS,买Linode.com的,它家新推出每月10刀的主机,性能绝佳,如果选择东京的机房,从大陆访问很快,用海外的主机不需要备案,这...

2017-01-17 09:42:00 63

转载 一个网站的诞生10--自动化部署

所谓自动部署就是说,如果用10台机器跑tornado程序提供Web服务,它们上面的代码都是一样的,这也叫生产环境。在公司写新代码,写好了,测试通过,这叫开发环境。然后执行自动部署程序,它把新代码提交到版本管理服务器,然后连上生产环境的10台服务器,让它们更新代码,再重启tornado程序,新...

2017-01-17 09:42:00 63

转载 一个网站的诞生01--缘由

喜欢美食的人,在中意餐厅吃久了,总想找新餐厅换换口味,试试新菜和新的食材。 寻找新餐厅并不容易,甚至是艰难。由于众所周知的原因,网上流传的餐厅文,美食文,常常不可信,编排越精美,越可能是软广---大家天天都很忙,很少有闲心做这么精美的文宣。我跟这些美食文找过,失望大于希望...

2017-01-17 09:41:00 243

转载 一个网站的诞生02--用Scrapy抓取数据

有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。 爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助...

2017-01-17 09:41:00 69

转载 python是最适合初学者的语言

这篇是写给初学者的。 IT行业,有人有电脑就可以开工。做得好很快就改变自己,也许会部分地改变世界。一般来说,距离物质世界越远,越没有硬约束,想象力和创造力就越重要。种地要靠太阳。挖煤要靠矿车。如果你觉得这些太慢了,你可以试试IT行业。如果你觉得脑力强劲,无处释放,请试试IT行业。如果你是一...

2017-01-17 09:40:00 223

转载 动态规划和中文分词

动态规划dynamical programming,简称dp。了解它请参考《数学之美》第12章和《算法导论》第2版第15章,这里就不重复了。 《算法导论》第15章的“装配线调度”问题是非常好的dp学习算法,用数学语言包装之后有点难懂,我用python写了个简化版,只需要看图15-2,...

2017-01-17 09:40:00 149

转载 从零开始学习Spark--第4章 Spark的各种运行方式

cd /home/brian/usr/hadoop/hadoop-1.1.2 #格式化NameNode ./bin/hadoop namenode -format #启动集群 ./bin/start-all #将README...

2017-01-17 09:38:00 87

转载 从零开始学习Spark--第5章 SparkContext类分析

2. scala完全兼容java,可以直接使用java的代码,所以引入了很多java库和hadoop库。 3. SparkContext.scala实现了一个class SparkContext和一个object SparkContext。 Scala语言不能...

2017-01-17 09:38:00 111

转载 一些大数据的案例

来自《Hadoop权威指南》的案例 1. Last.fm 1.1 背景 创建于2002年,提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm,产生大量数据。现在有了中文版http://cn.last.fm/,界面很不错! ...

2017-01-17 09:38:00 87

转载 从零开始学习Spark--第1章 安装和测试

spark 安装 0.8 版本 操作系统Ubuntu 10.04,已经安装JDK 1.7。 1. 下载spark代码 http://spark.incubator.apache.org/downloads.html 2. spark 0.8依赖于scala 2.9...

2017-01-17 09:37:00 118

转载 从零开始学习Spark--第2章 spark开发

http://spark.incubator.apache.org/docs/latest/scala-programming-guide.html http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf ...

2017-01-17 09:37:00 62

转载 从零开始学习Spark--第3章 spark的example

1.1 命令行: #spark安装在/home/brian/setup/spark-new/spark-0.8.0目录 cd /home/brian/setup/spark-new/spark-0.8.0 #在本地运行计算Pi值的Spark程序,4个工作线...

2017-01-17 09:37:00 257

转载 Hadoop的砖块们--第2章 HttpServer, Jetty, Servlet

1.HttpServer类的代码在core/org/apache/hadoop/http/HttpServer.java 2.哪里用到了HttpServer? NameNode,DataNode,JobTracker,TaskTrackr都用到了HttpServer。 3.以...

2017-01-17 09:24:00 199

转载 一个MapReuce作业的从开始到结束--第7章 MapReduce的执行过程

1. Job类 在新版的API中,MapReduce的执行有Job类管理。Job类的代码在mapred/org/apache/hadoop/mapreduce/Job.java 在wordCount的例子中,main函数执行一下的步骤: ...

2017-01-17 09:23:00 127

转载 Hadoop的砖块们--第1章 远程过程调用RPC

砖块盖起大厦。“Hadoop的砖块们”,就是逐一分析Hadoop技术的重要技术组成元素。Hadoop的最重要的砖块是远程过程调用RPC。对于RPC来说,《Hadoop技术内幕》一书讲的非常清晰,这里就不重复了。 要先熟悉代理类模式,客户端/服务端网络编程。 1. 代理类 这...

2017-01-17 09:23:00 85

转载 一个MapReuce作业的从开始到结束--第5章 把文件复制到HDFS的流程

在本章,我们以《从零开始学习Hadoop》的第一个例子WordCount为例,分析Hadoop执行MapReduce的流程和诸多细节。这个例子在该书有详细的说明,在这里不在给出,请参考该书了解细节。 1. 执行流程 [1].将README.txt文件复制到HDFS的命令是: ...

2017-01-17 09:22:00 94

转载 一个MapReuce作业的从开始到结束--第6章Hadoop以Jar包的方式执行MapReduce任务

从bin/hadoop脚本可知,Hadoop运行Jar包执行MapReduce任务的类是org.apache.hadoop.util.RunJar,其源代码在core/org/apache/hadoop/util/RunJar.java。 执行一个Jar包,其本质就是,把Ja...

2017-01-17 09:22:00 82

转载 一个MapReuce作业的从开始到结束--第3章 NameNode节点启动分析

从bin/hadoop中可知,NameNode节点对应的类NameNode类,它的源代码文件是hdfs/org/apache/hadoop/hdfs/server/namenode/NameNode.java。 NameNode启动执行函数的次序: [1]. 执行main函数。 ...

2017-01-17 09:22:00 88

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除