chutian8427-CSDN博客

转载史上最直白的logistic regression教程之一

本系列前四篇是随手涂鸦，只为讲清问题，有口语化，且有少数符号误写，以及重复絮叨，且不打算修改：）第5篇提供了一个严谨的学术语言的完整pdf文档，敬请下载！ Logistic Regession是什么 Logistic Regression是线性回归，但最终是用作分类器：它从样本...

2017-01-17 09:50:00 207

转载史上最直白的logistic regression教程之一

本系列前四篇是随手涂鸦，只为讲清问题，有口语化，且有少数符号误写，以及重复絮叨，且不打算修改：）第5篇提供了一个严谨的学术语言的完整pdf文档，敬请下载！ Logistic Regession是什么 Logistic Regression是线性回归，但最终是用作分类器：它从样本...

2017-01-17 09:50:00 196

转载史上最直白的logistic regression教程之一

本系列前四篇是随手涂鸦，只为讲清问题，有口语化，且有少数符号误写，以及重复絮叨，且不打算修改：）第5篇提供了一个严谨的学术语言的完整pdf文档，敬请下载！ Logistic Regession是什么 Logistic Regression是线性回归，但最终是用作分类器：它从样本...

2017-01-17 09:50:00 178

转载 weka实战004：fp-growth关联规则算法

apriori算法的计算量太大，如果数据集略大一些，会比较慢，非常容易内存溢出。我们可以算一下复杂度：假设样本数有N个，样本属性为M个，每个样本属性平均有K个nominal值。 1. 计算一项频繁集的时间复杂度是O(N*M*K)。 2. 假设具有最小支持度的频繁项是q个，根据它们...

2017-01-17 09:47:00 1069

转载 weka实战005：基于HashSet实现的apriori关联规则算法

这个一个apriori算法的演示版本，所有的代码都在一个类。仅供研究算法参考 package test;import java.util.Collections;import java.util.HashMap;import java.util.HashSet;impor...

2017-01-17 09:47:00 152

转载 TensorFlow试用

Google发布了开源深度学习工具TensorFlow。根据官方教程 http://tensorflow.org/tutorials/mnist/beginners/index.md 试用。操作系统是ubuntu 14.04，64位，python 2.7，已经安装足够的...

2017-01-17 09:47:00 161

转载 weka实战001：一篇博文简单了解weka

weka是java写的开源模式识别和数据挖掘软件，已经有十多年的历史了。weka的官网在http://www.cs.waikato.ac.nz/ml/weka/。模式识别和数据挖掘有四个问题，第一：问题是什么第二：数据是什么第三：如何学习第四：学习结果可靠吗？ ...

2017-01-17 09:46:00 157

转载 weka实战002：apriori关联规则算法

关联规则算法最出名的例子就是啤酒和尿布放一起卖。假如我们去超市买东西，付款后，会拿到一张购物清单。这个清单就是一个Transaction。对关联规则算法来说，每个产品的购买数量是无意义的，不参与计算。许许多多的人买东西，生成了N个购物清单，也就是N个Transaction。...

2017-01-17 09:46:00 648

转载 weka实战003：apriori关联规则算法的实现

weka实现的apriori算法是在weka.associations包的Apriror类。在这个类，挖掘关联规则的入口函数是public void buildAssociations(Instances instances)，而instances就是数据集，检查数据，设置参数，初始...

2017-01-17 09:46:00 516

转载 Hadoop 1.x的Task，ReduceTask，MapTask随想

Hadoop的技术体系，最令人称赞的是细节。它的基本原理是非常容易理解的，细节是魔鬼。 hadoop的hdfs是文件系统存储，它有三类节点namenode, scondraynamenode, datanode，前两种在集群分别只有一个节点，而datanode在集群有很多个。hdfs的...

2017-01-17 09:45:00 313

转载 Hadoop 1.x的Shuffle源码分析之1

先参考董西成的博文 http://dongxicheng.org/mapreduce/hadoop-shuffle-phase/ Hadoop中shuffle阶段流程分析 Hadoop的一个任务执行过程，分为Map和Reduce两个阶段。而shuffle发生在Reduc...

2017-01-17 09:44:00 141

转载 Hadoop 1.x的Shuffle源码分析之2

ReduceTask类的内嵌类ReduceCopier的内嵌类MapOutputCopier的函数copyOutput是Shuffle里最重要的一环，它以http的方式，从远程主机取数据：创建临时文件名，然后用http读数据，再保存到内存文件系统或者本地文件系统。它读取远程文件的函数是getM...

2017-01-17 09:44:00 109

转载 Hadoop 1.x的Shuffle源码分析之3

shuffle有两种，一种是在内存存储数据，另一种是在本地文件存储数据，两者几乎一致。以本地文件进行shuffle的过程为例： mapOutput = shuffleToDisk(mapOutputLoc, input, filename, com...

2017-01-17 09:44:00 110

转载 apache oozie安装试用

oozie是hadoop的工作流Scheduler，最新的版本到4.0.1了。试用了下，小坑还蛮多的。 1. 编译我的主机上跑的是Hadoop 1.1.2，选的是oozie 3.3.0版本，下载源码，解压缩。首先，要把源码里的javaversion从1.6改成1.7，...

2017-01-17 09:43:00 181

转载 HBase 二次开发 java api和demo

1. 试用thrift python/java以及hbase client api，结论如下： 1.1 thrift的安装和发布繁琐，可能会遇到未知的错误，且hbase.thrift的版本在变化中。优点代码简单，需要打包的内容少。 1.2 hbas...

2017-01-17 09:43:00 143

转载 weka实战001：一篇博文简单了解weka

weka是java写的开源模式识别和数据挖掘软件，已经有十多年的历史了。weka的官网在http://www.cs.waikato.ac.nz/ml/weka/。模式识别和数据挖掘有四个问题，第一：问题是什么第二：数据是什么第三：如何学习第四：学习结果可靠吗？ ...

2017-01-17 09:43:00 121

转载一个网站的诞生03--抓取评论数最多的一万家餐厅

在大众点评网上，有很多种方式对餐厅进行排序，比如 http://www.dianping.com/search/category/1/10/o10 ，是上海全市按照评论总数最多对餐厅进行排序，下面有50个分页，也就是上海历年累计评论综述最多的750家餐厅。但只有750家，少了点。上海有18...

2017-01-17 09:42:00 153

转载一个网站的诞生04--抓取一个餐厅的某个月的全部评论

第一个Spider是抓上海的城市id，顺带抓它的下一级行政区id。第二个Spider是抓上海的Top一万家餐厅的Shopid。本文是第三个Spider，根据一个餐厅的Shopid，抓取它在某个月内的全部评论。三个Spider的累加效果，就是抓取任意一个城市的TopN家餐厅的全...

2017-01-17 09:42:00 403

转载一个网站的诞生05--如何把网站做到估值过亿

如何计算一个网站的估值？国际标准是每个活跃用户的价值是40刀左右，Whatsapp卖了190亿刀，它有4.5亿活跃用户。中国略有差别，微信的估值是40亿~50亿刀，有3亿用户，但中国的用户商业价值不够高，人均GDP太低，所以每个活跃用户的价值是10～15刀，也就是RMB60～90元。...

2017-01-17 09:42:00 364

转载一个网站的诞生06-- ORM

于是，ORM就出现了。 ORM是Object Relation Model，也就是对象关系映射。简而言之，ORM将将数据库的记录表示成对象。选择一个好的ORM，由它的层面解决数据库和SQL语言问题，可以很开心。程序里用ORM好处多多，不需要写SQL语言了，更换新数据库只...

2017-01-17 09:42:00 87

转载一个网站的诞生07-- Tornado Web Server

那么，就需要一个Web Server。几乎每种语言都有一大堆Web Server开发框架，Python也不例外，比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng....

2017-01-17 09:42:00 206

转载一个网站的诞生08-- 在Web App嵌入地图

提供地图API服务的公司很多，国外有GoogleMap，OpenStreetMap，国内有百度地图，腾讯地图，高德地图。GoogleMap由于某些原因不能正常使用，不在选择之列。我最先考虑的是OpenStreetMap，因为除了GoogleMap之外它最有美感，www.zillow....

2017-01-17 09:42:00 178

转载一个网站的诞生09--自动监控

部署Web App，需要买一个域名，我推荐 http://www.namecheap.com/ ，用信用卡或者paypal付款，一年10刀。如果需要VPS，买Linode.com的，它家新推出每月10刀的主机，性能绝佳，如果选择东京的机房，从大陆访问很快，用海外的主机不需要备案，这...

2017-01-17 09:42:00 113

转载一个网站的诞生10--自动化部署

所谓自动部署就是说，如果用10台机器跑tornado程序提供Web服务，它们上面的代码都是一样的，这也叫生产环境。在公司写新代码，写好了，测试通过，这叫开发环境。然后执行自动部署程序，它把新代码提交到版本管理服务器，然后连上生产环境的10台服务器，让它们更新代码，再重启tornado程序，新...

2017-01-17 09:42:00 110

转载一个网站的诞生01--缘由

喜欢美食的人，在中意餐厅吃久了，总想找新餐厅换换口味，试试新菜和新的食材。寻找新餐厅并不容易，甚至是艰难。由于众所周知的原因，网上流传的餐厅文，美食文，常常不可信，编排越精美，越可能是软广---大家天天都很忙，很少有闲心做这么精美的文宣。我跟这些美食文找过，失望大于希望...

2017-01-17 09:41:00 290

转载一个网站的诞生02--用Scrapy抓取数据

有各种语言版本的开源爬虫，c++, Java, php，在github上搜一下，以"spider c++"为关键字，有245个开源爬虫，以"spider java"为关键字，有48个。那python呢？156个。爬虫技术在业界已经很成熟了，有很多开源框架，在它们的帮助...

2017-01-17 09:41:00 116

转载 python是最适合初学者的语言

这篇是写给初学者的。 IT行业，有人有电脑就可以开工。做得好很快就改变自己，也许会部分地改变世界。一般来说，距离物质世界越远，越没有硬约束，想象力和创造力就越重要。种地要靠太阳。挖煤要靠矿车。如果你觉得这些太慢了，你可以试试IT行业。如果你觉得脑力强劲，无处释放，请试试IT行业。如果你是一...

2017-01-17 09:40:00 270

转载动态规划和中文分词

动态规划dynamical programming，简称dp。了解它请参考《数学之美》第12章和《算法导论》第2版第15章，这里就不重复了。《算法导论》第15章的“装配线调度”问题是非常好的dp学习算法，用数学语言包装之后有点难懂，我用python写了个简化版，只需要看图15-2，...

2017-01-17 09:40:00 192

转载从零开始学习Spark--第4章 Spark的各种运行方式

cd /home/brian/usr/hadoop/hadoop-1.1.2 #格式化NameNode ./bin/hadoop namenode -format #启动集群 ./bin/start-all #将README...

2017-01-17 09:38:00 130

转载从零开始学习Spark--第5章 SparkContext类分析

2. scala完全兼容java，可以直接使用java的代码，所以引入了很多java库和hadoop库。 3. SparkContext.scala实现了一个class SparkContext和一个object SparkContext。 Scala语言不能...

2017-01-17 09:38:00 151

转载一些大数据的案例

来自《Hadoop权威指南》的案例 1. Last.fm 1.1 背景创建于2002年，提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm，产生大量数据。现在有了中文版http://cn.last.fm/，界面很不错！ ...

2017-01-17 09:38:00 138

转载从零开始学习Spark--第1章安装和测试

spark 安装 0.8 版本操作系统Ubuntu 10.04，已经安装JDK 1.7。 1. 下载spark代码 http://spark.incubator.apache.org/downloads.html 2. spark 0.8依赖于scala 2.9...

2017-01-17 09:37:00 187

转载从零开始学习Spark--第2章 spark开发

http://spark.incubator.apache.org/docs/latest/scala-programming-guide.html http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf ...

2017-01-17 09:37:00 111

转载从零开始学习Spark--第3章 spark的example

1.1 命令行： #spark安装在/home/brian/setup/spark-new/spark-0.8.0目录 cd /home/brian/setup/spark-new/spark-0.8.0 #在本地运行计算Pi值的Spark程序，4个工作线...

2017-01-17 09:37:00 360

转载 Hadoop的砖块们--第2章 HttpServer, Jetty, Servlet

1.HttpServer类的代码在core/org/apache/hadoop/http/HttpServer.java 2.哪里用到了HttpServer? NameNode，DataNode，JobTracker，TaskTrackr都用到了HttpServer。 3.以...

2017-01-17 09:24:00 262

转载一个MapReuce作业的从开始到结束--第7章 MapReduce的执行过程

1. Job类在新版的API中，MapReduce的执行有Job类管理。Job类的代码在mapred/org/apache/hadoop/mapreduce/Job.java 在wordCount的例子中，main函数执行一下的步骤： ...

2017-01-17 09:23:00 175

转载 Hadoop的砖块们--第1章远程过程调用RPC

砖块盖起大厦。“Hadoop的砖块们”，就是逐一分析Hadoop技术的重要技术组成元素。Hadoop的最重要的砖块是远程过程调用RPC。对于RPC来说，《Hadoop技术内幕》一书讲的非常清晰，这里就不重复了。要先熟悉代理类模式，客户端/服务端网络编程。 1. 代理类这...

2017-01-17 09:23:00 122

转载一个MapReuce作业的从开始到结束--第5章把文件复制到HDFS的流程

在本章，我们以《从零开始学习Hadoop》的第一个例子WordCount为例，分析Hadoop执行MapReduce的流程和诸多细节。这个例子在该书有详细的说明，在这里不在给出，请参考该书了解细节。 1. 执行流程 [1].将README.txt文件复制到HDFS的命令是: ...

2017-01-17 09:22:00 129

转载一个MapReuce作业的从开始到结束--第6章Hadoop以Jar包的方式执行MapReduce任务

从bin/hadoop脚本可知，Hadoop运行Jar包执行MapReduce任务的类是org.apache.hadoop.util.RunJar，其源代码在core/org/apache/hadoop/util/RunJar.java。执行一个Jar包，其本质就是，把Ja...

2017-01-17 09:22:00 135

转载一个MapReuce作业的从开始到结束--第3章 NameNode节点启动分析

从bin/hadoop中可知，NameNode节点对应的类NameNode类，它的源代码文件是hdfs/org/apache/hadoop/hdfs/server/namenode/NameNode.java。 NameNode启动执行函数的次序： [1]. 执行main函数。 ...

2017-01-17 09:22:00 132

空空如也

空空如也