自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (6)
  • 收藏
  • 关注

原创 apache oozie安装试用

oozie是hadoop的工作流Scheduler,最新的版本到4.0.1了。试用了下,小坑还蛮多的。1. 编译我的主机上跑的是Hadoop 1.1.2,选的是oozie 3.3.0版本,下载源码,解压缩。首先,要把源码里的javaversion从1.6改成1.7,主机是用jdk1.7。编译oozie,命令是'./bin/mkdistro.sh -DskipTests -Dha

2014-08-26 16:07:05 2494

原创 一个网站的诞生10--自动化部署

所谓自动部署就是说,如果用10台机器跑tornado程序提供Web服务,它们上面的代码都是一样的,这也叫生产环境。在公司写新代码,写好了,测试通过,这叫开发环境。然后执行自动部署程序,它把新代码提交到版本管理服务器,然后连上生产环境的10台服务器,让它们更新代码,再重启tornado程序,新代码就上线了,用户看到的就是新发布的网站。自动部署的关键是两个东西,一个是版本服务器,一个是远程操作

2014-08-20 13:02:28 1910

原创 一个网站的诞生09--自动监控

部署Web App,需要买一个域名,我推荐http://www.namecheap.com/,用信用卡或者paypal付款,一年10刀。如果需要VPS,买Linode.com的,它家新推出每月10刀的主机,性能绝佳,如果选择东京的机房,从大陆访问很快,用海外的主机不需要备案,这是最大的卖点。网站的tornado代码运行了,网站可以访问了。有时候网站会因为各种原因崩溃,比如被攻击,代码b

2014-08-19 20:47:24 1175

原创 一个网站的诞生08-- 在Web App嵌入地图

LBS-Location Based Service,基于位置的服务。如果要在Web App嵌入地图,差不多可以做成LBS了。zuijiancanting.com的设计理念,是把Top餐厅放在地图上,那么当你到某个地方逛逛,或者有约会,拖拉一下地图就可以找到合适的餐厅。提供地图API服务的公司很多,国外有GoogleMap,OpenStreetMap,国内有百度地图,腾讯地图,高德地图

2014-08-17 20:50:02 2135

原创 一个网站的诞生07-- Tornado Web Server

用Spider抓取数据,然后再做各种处理,然后放到web页面供大家使用。那么,就需要一个Web Server。几乎每种语言都有一大堆Web Server开发框架,Python也不例外,比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473

2014-08-15 15:05:17 1659

原创 一个网站的诞生06-- ORM

网站上的数据,存在数据库里。一般用Mysql,也有用sqlite,Postgre。操作数据库要会SQL语言,这个有点麻烦,常常需要查手册。此外,每家数据库在实现SQL语言的时候,常常会加料,增加一些自己独有的东西。而且,SQL语言不是面向对象/基于对象,很多抽象更高的东西不能使用。于是,ORM就出现了。ORM是Object Relation Model,也就是 对象关系映射

2014-08-12 18:14:45 1413

原创 一个网站的诞生05--如何把网站做到估值过亿

网站的意义,在于创造对用户有价值的东西,估值是网站意义的一个衡量指标,提升估值的手段,也就等价于把网站做得更有用。如何计算一个网站的估值?国际标准是每个活跃用户的价值是40刀左右,Whatsapp卖了190亿刀,它有4.5亿活跃用户。中国略有差别,微信的估值是40亿~50亿刀,有3亿用户,但中国的用户商业价值不够高,人均GDP太低,所以每个活跃用户的价值是10~15刀,也就是RMB60

2014-08-11 21:54:24 2315 1

原创 一个网站的诞生04--抓取一个餐厅的某个月的全部评论

第一个Spider是抓上海的城市id,顺带抓它的下一级行政区id。第二个Spider是抓上海的Top一万家餐厅的Shopid。本文是第三个Spider,根据一个餐厅的Shopid,抓取它在某个月内的全部评论。三个Spider的累加效果,就是抓取任意一个城市的TopN家餐厅的全部评论。第三个Spider修改一下,还可以做到只抓取某天的评论,只抓取某人的评论,从抓取的角度看就全

2014-08-07 17:27:02 2000

原创 一个网站的诞生03--抓取评论数最多的一万家餐厅

在大众点评网上,有很多种方式对餐厅进行排序,比如http://www.dianping.com/search/category/1/10/o10,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但只有750家,少了点。上海有18个区,逐区点击的话,每区都会显示前750家餐厅,比如这个http://www.dianping.com/searc

2014-08-06 13:39:05 2460

原创 一个网站的诞生02--用Scrapy抓取数据

如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。有各种语言版本的开源爬虫,c++, Java,  php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个

2014-08-04 17:21:50 4123

原创 一个网站的诞生01--缘由

大概在半年前,我觉得需要做一个网站,寻找新奇有趣的餐厅。喜欢美食的人,在中意餐厅吃久了,总想找新餐厅换换口味,试试新菜和新的食材。寻找新餐厅并不容易,甚至是艰难。由于众所周知的原因,网上流传的餐厅文,美食文,常常不可信,编排越精美,越可能是软广---大家天天都很忙,很少有闲心做这么精美的文宣。我跟这些美食文找过,失望大于希望,成功率不到一半。而且,魔都太大,打听到的餐厅,总

2014-08-03 18:12:09 1581 2

评分卡模型理论推导-草稿

评分卡模型理论推导,草稿版。

2018-12-20

史上最直白的lda教程

史上最直白的lda教程的pdf文档,0积分下载。求rp。

2015-12-16

史上最直白的ICA教程

史上最直白的ICA教程,免积分,求人品。

2015-12-11

史上最直白的pca教程

史上最直白的pca教程,整理文档,一个完整的pdf文件。

2015-11-27

史上最直白的logistic regression教程整理稿

史上最直白的logistic regression教程整理稿。讲4篇博文整理成一个完整的pdf文档。且修改成学术语境。

2015-11-22

sqlalchemy文档

sqlalchemy文档,官方的那种。没什么价值。

2014-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除