- 博客(11)
- 资源 (6)
- 收藏
- 关注
原创 apache oozie安装试用
oozie是hadoop的工作流Scheduler,最新的版本到4.0.1了。试用了下,小坑还蛮多的。1. 编译我的主机上跑的是Hadoop 1.1.2,选的是oozie 3.3.0版本,下载源码,解压缩。首先,要把源码里的javaversion从1.6改成1.7,主机是用jdk1.7。编译oozie,命令是'./bin/mkdistro.sh -DskipTests -Dha
2014-08-26 16:07:05 2494
原创 一个网站的诞生10--自动化部署
所谓自动部署就是说,如果用10台机器跑tornado程序提供Web服务,它们上面的代码都是一样的,这也叫生产环境。在公司写新代码,写好了,测试通过,这叫开发环境。然后执行自动部署程序,它把新代码提交到版本管理服务器,然后连上生产环境的10台服务器,让它们更新代码,再重启tornado程序,新代码就上线了,用户看到的就是新发布的网站。自动部署的关键是两个东西,一个是版本服务器,一个是远程操作
2014-08-20 13:02:28 1910
原创 一个网站的诞生09--自动监控
部署Web App,需要买一个域名,我推荐http://www.namecheap.com/,用信用卡或者paypal付款,一年10刀。如果需要VPS,买Linode.com的,它家新推出每月10刀的主机,性能绝佳,如果选择东京的机房,从大陆访问很快,用海外的主机不需要备案,这是最大的卖点。网站的tornado代码运行了,网站可以访问了。有时候网站会因为各种原因崩溃,比如被攻击,代码b
2014-08-19 20:47:24 1175
原创 一个网站的诞生08-- 在Web App嵌入地图
LBS-Location Based Service,基于位置的服务。如果要在Web App嵌入地图,差不多可以做成LBS了。zuijiancanting.com的设计理念,是把Top餐厅放在地图上,那么当你到某个地方逛逛,或者有约会,拖拉一下地图就可以找到合适的餐厅。提供地图API服务的公司很多,国外有GoogleMap,OpenStreetMap,国内有百度地图,腾讯地图,高德地图
2014-08-17 20:50:02 2135
原创 一个网站的诞生07-- Tornado Web Server
用Spider抓取数据,然后再做各种处理,然后放到web页面供大家使用。那么,就需要一个Web Server。几乎每种语言都有一大堆Web Server开发框架,Python也不例外,比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473
2014-08-15 15:05:17 1659
原创 一个网站的诞生06-- ORM
网站上的数据,存在数据库里。一般用Mysql,也有用sqlite,Postgre。操作数据库要会SQL语言,这个有点麻烦,常常需要查手册。此外,每家数据库在实现SQL语言的时候,常常会加料,增加一些自己独有的东西。而且,SQL语言不是面向对象/基于对象,很多抽象更高的东西不能使用。于是,ORM就出现了。ORM是Object Relation Model,也就是 对象关系映射
2014-08-12 18:14:45 1413
原创 一个网站的诞生05--如何把网站做到估值过亿
网站的意义,在于创造对用户有价值的东西,估值是网站意义的一个衡量指标,提升估值的手段,也就等价于把网站做得更有用。如何计算一个网站的估值?国际标准是每个活跃用户的价值是40刀左右,Whatsapp卖了190亿刀,它有4.5亿活跃用户。中国略有差别,微信的估值是40亿~50亿刀,有3亿用户,但中国的用户商业价值不够高,人均GDP太低,所以每个活跃用户的价值是10~15刀,也就是RMB60
2014-08-11 21:54:24 2315 1
原创 一个网站的诞生04--抓取一个餐厅的某个月的全部评论
第一个Spider是抓上海的城市id,顺带抓它的下一级行政区id。第二个Spider是抓上海的Top一万家餐厅的Shopid。本文是第三个Spider,根据一个餐厅的Shopid,抓取它在某个月内的全部评论。三个Spider的累加效果,就是抓取任意一个城市的TopN家餐厅的全部评论。第三个Spider修改一下,还可以做到只抓取某天的评论,只抓取某人的评论,从抓取的角度看就全
2014-08-07 17:27:02 2000
原创 一个网站的诞生03--抓取评论数最多的一万家餐厅
在大众点评网上,有很多种方式对餐厅进行排序,比如http://www.dianping.com/search/category/1/10/o10,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但只有750家,少了点。上海有18个区,逐区点击的话,每区都会显示前750家餐厅,比如这个http://www.dianping.com/searc
2014-08-06 13:39:05 2460
原创 一个网站的诞生02--用Scrapy抓取数据
如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个
2014-08-04 17:21:50 4123
原创 一个网站的诞生01--缘由
大概在半年前,我觉得需要做一个网站,寻找新奇有趣的餐厅。喜欢美食的人,在中意餐厅吃久了,总想找新餐厅换换口味,试试新菜和新的食材。寻找新餐厅并不容易,甚至是艰难。由于众所周知的原因,网上流传的餐厅文,美食文,常常不可信,编排越精美,越可能是软广---大家天天都很忙,很少有闲心做这么精美的文宣。我跟这些美食文找过,失望大于希望,成功率不到一半。而且,魔都太大,打听到的餐厅,总
2014-08-03 18:12:09 1581 2
史上最直白的logistic regression教程整理稿
2015-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人