2014年08月_未济2019

11月 08月 03月 02月 01月

原创 apache oozie安装试用

oozie是hadoop的工作流Scheduler，最新的版本到4.0.1了。试用了下，小坑还蛮多的。1. 编译我的主机上跑的是Hadoop 1.1.2，选的是oozie 3.3.0版本，下载源码，解压缩。首先，要把源码里的javaversion从1.6改成1.7，主机是用jdk1.7。编译oozie，命令是'./bin/mkdistro.sh -DskipTests -Dha

2014-08-26 16:07:05 2494

原创一个网站的诞生10--自动化部署

所谓自动部署就是说，如果用10台机器跑tornado程序提供Web服务，它们上面的代码都是一样的，这也叫生产环境。在公司写新代码，写好了，测试通过，这叫开发环境。然后执行自动部署程序，它把新代码提交到版本管理服务器，然后连上生产环境的10台服务器，让它们更新代码，再重启tornado程序，新代码就上线了，用户看到的就是新发布的网站。自动部署的关键是两个东西，一个是版本服务器，一个是远程操作

2014-08-20 13:02:28 1910

原创一个网站的诞生09--自动监控

部署Web App，需要买一个域名，我推荐http://www.namecheap.com/，用信用卡或者paypal付款，一年10刀。如果需要VPS，买Linode.com的，它家新推出每月10刀的主机，性能绝佳，如果选择东京的机房，从大陆访问很快，用海外的主机不需要备案，这是最大的卖点。网站的tornado代码运行了，网站可以访问了。有时候网站会因为各种原因崩溃，比如被攻击，代码b

2014-08-19 20:47:24 1175

原创一个网站的诞生08-- 在Web App嵌入地图

LBS-Location Based Service，基于位置的服务。如果要在Web App嵌入地图，差不多可以做成LBS了。zuijiancanting.com的设计理念，是把Top餐厅放在地图上，那么当你到某个地方逛逛，或者有约会，拖拉一下地图就可以找到合适的餐厅。提供地图API服务的公司很多，国外有GoogleMap，OpenStreetMap，国内有百度地图，腾讯地图，高德地图

2014-08-17 20:50:02 2135

原创一个网站的诞生07-- Tornado Web Server

用Spider抓取数据，然后再做各种处理，然后放到web页面供大家使用。那么，就需要一个Web Server。几乎每种语言都有一大堆Web Server开发框架，Python也不例外，比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473

2014-08-15 15:05:17 1659

原创一个网站的诞生06-- ORM

网站上的数据，存在数据库里。一般用Mysql，也有用sqlite，Postgre。操作数据库要会SQL语言，这个有点麻烦，常常需要查手册。此外，每家数据库在实现SQL语言的时候，常常会加料，增加一些自己独有的东西。而且，SQL语言不是面向对象/基于对象，很多抽象更高的东西不能使用。于是，ORM就出现了。ORM是Object Relation Model，也就是对象关系映射

2014-08-12 18:14:45 1413

原创一个网站的诞生05--如何把网站做到估值过亿

网站的意义，在于创造对用户有价值的东西，估值是网站意义的一个衡量指标，提升估值的手段，也就等价于把网站做得更有用。如何计算一个网站的估值？国际标准是每个活跃用户的价值是40刀左右，Whatsapp卖了190亿刀，它有4.5亿活跃用户。中国略有差别，微信的估值是40亿~50亿刀，有3亿用户，但中国的用户商业价值不够高，人均GDP太低，所以每个活跃用户的价值是10～15刀，也就是RMB60

2014-08-11 21:54:24 2315 1

原创一个网站的诞生04--抓取一个餐厅的某个月的全部评论

第一个Spider是抓上海的城市id，顺带抓它的下一级行政区id。第二个Spider是抓上海的Top一万家餐厅的Shopid。本文是第三个Spider，根据一个餐厅的Shopid，抓取它在某个月内的全部评论。三个Spider的累加效果，就是抓取任意一个城市的TopN家餐厅的全部评论。第三个Spider修改一下，还可以做到只抓取某天的评论，只抓取某人的评论，从抓取的角度看就全

2014-08-07 17:27:02 2000

在大众点评网上，有很多种方式对餐厅进行排序，比如http://www.dianping.com/search/category/1/10/o10，是上海全市按照评论总数最多对餐厅进行排序，下面有50个分页，也就是上海历年累计评论综述最多的750家餐厅。但只有750家，少了点。上海有18个区，逐区点击的话，每区都会显示前750家餐厅，比如这个http://www.dianping.com/searc

2014-08-06 13:39:05 2460

原创一个网站的诞生02--用Scrapy抓取数据

如果想抓数据，就需要有爬虫程序，业内叫crawler或者spider。有各种语言版本的开源爬虫，c++, Java, php，在github上搜一下，以"spider c++"为关键字，有245个开源爬虫，以"spider java"为关键字，有48个。那python呢？156个。爬虫技术在业界已经很成熟了，有很多开源框架，在它们的帮助下写爬虫可以很快，几个小时就能写一个

2014-08-04 17:21:50 4123

原创一个网站的诞生01--缘由

大概在半年前，我觉得需要做一个网站，寻找新奇有趣的餐厅。喜欢美食的人，在中意餐厅吃久了，总想找新餐厅换换口味，试试新菜和新的食材。寻找新餐厅并不容易，甚至是艰难。由于众所周知的原因，网上流传的餐厅文，美食文，常常不可信，编排越精美，越可能是软广---大家天天都很忙，很少有闲心做这么精美的文宣。我跟这些美食文找过，失望大于希望，成功率不到一半。而且，魔都太大，打听到的餐厅，总

2014-08-03 18:12:09 1581 2

评分卡模型理论推导-草稿

评分卡模型理论推导，草稿版。

2018-12-20

史上最直白的lda教程

史上最直白的lda教程的pdf文档，0积分下载。求rp。

2015-12-16

史上最直白的ICA教程

史上最直白的ICA教程，免积分，求人品。

2015-12-11

史上最直白的pca教程

史上最直白的pca教程，整理文档，一个完整的pdf文件。

2015-11-27

史上最直白的logistic regression教程整理稿

史上最直白的logistic regression教程整理稿。讲4篇博文整理成一个完整的pdf文档。且修改成学术语境。

2015-11-22

sqlalchemy文档

sqlalchemy文档，官方的那种。没什么价值。

2014-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

大数据和机器学习研究