自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Yii系列——优化程序目录结构

程序目录的结构除了方便查找和分类程序文件外,更重要是在生产环境下的部署的便捷(运维人员不一定非常程序结构)、优化和安全性的考量,因此对Yii 标准的目录结构进行重新划分,形成的目录结构如下:说明:适用于Yii 1.1.x 版本,不适合Yii 2.0 的框架的使用。目录结构-根目录文件-build.xml Jenkins 配置文件-

2015-10-13 17:01:42 418

原创 文本分析系列——基于相似哈希信息指纹的文本相似度算法

曾经使用这个算法进行文章查重的应用(日常排查100w篇左右),以下只是整个计算的原理和过程,计算的效率 更多是根据编程语言和架构决定,并不是本文关注的重点。计算原理:        布隆过滤原理,不多解释,看百科吧:http://baike.baidu.com/link?url=nAPkTtMtrb8kI-ZSare68S3SJ-p4sMs28RYerkgDzs2-0IBC4aEvMxFJ

2015-10-12 17:42:27 2955 1

原创 文本分析系列——基于词库的文本是非判断计算

分类是我们经常遇到的问题,而“是”与“否”是最简单的分类命题,对于人类来说分类不难,例如:这支笔是不是钢笔?但对于机器来说就没有那么简单,以下提到的文本的是非判断是我开发过的项目中所使用的计算方法,本质上来说是朴素贝叶斯分类计算,只是在这个的基础上做了改良,用于文本(新闻)是否属于某城市的判断,正确率80%左右;简介        二分类是指所有的文本只存在两个分类的划分,例如“*

2015-09-29 22:39:48 892

原创 LNMP系列——php编程建议规范

人都有自由的天性,所以规范是不受欢迎的,但当你被旧代码或别人的代码绕的云里雾里的时候,就会想要是有规范多好。所以规范最重要的作用是统一一种写作风格,提高可读性,当然这些规范不是某个人的规范,而是一些优秀的、已经达成共识的规则组成,例如大名鼎鼎的 Google Code Style,是google建议的编码规范。团队越大,规范就越重要,因为风格不统一的问题会增加协作的成本,另外就是林子大了,什么

2015-09-29 15:26:06 1023

原创 LNMP——Mongodb生产环境配置

第一次使用mongodb是在2013年初,将当时一个约有500百万篇文章的一个mysql数据库迁移到了mongodb上,对于这种关系性不强的数据,迁移到mongodb上相对还是比较合适的。但也基本上到此为止了,mongodb在运维和恢复上远不及mysql那么成熟,导致后来运维跟不上后,也逐渐少用,因为大部分的业务需求在mysql上已经能够满足。        不要过度相信blog,技术变化

2015-09-25 17:33:53 504

原创 算法系列——向量空间模型计算模板选择

起源一个实际应用问题:假设有5篇文章(有图片文章,有纯文字文章),另外有一批显示模板(有若干带图模板、和不带图模板),如何选择最佳的显示模板。        首先想到的是决策树,通过一些关键“决策点”(有无图,有1张图、有2张图,有n图,有什么尺寸比例的图)进行判断选择,那好,动手画图,当决策点不断增加时候,发现决策树越来越大,而且每添加一个决策点(影响因素)都会导致决策树变化,而且决策树

2015-09-22 22:23:24 816

原创 LNMP系列——Nginx生产环境配置

基础环境centos 6.4nginx 1.6以上php 5.3yum安装rpm -ivh http://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx.noarch.rpmyum -y install nginxchkconfig nginx onservi

2015-09-21 18:11:01 616

原创 文本分析系列——词语权重算法:TF-IDF算法

简介     TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率;反文档频率(inverse document frequency,IDF),即某一个给定词语在文档集合中出现的次数与文档总数的商;理论如果某个词或短语在一篇文章中出现的频率高,

2015-09-18 17:44:12 8795

原创 文本分析系列——汇总

文本分析系列的文章是我在2012~2013年做某个项目的笔记和资料整理而成,所提到的算法/实现方式都最终应用于项目开发,而并非只是概念上,当然文本分析领域非常大也非常艰深(包括google在内的大公司都有深入的研究和产品),以下的文章资料仅限于文本的零和判断、关联判断、排重、分类:特征抽取文本分析系列——文本特征抽取文本分析系列——词语权重算法:TF-IDF算法文本判断

2015-09-15 17:24:52 432

原创 LNMP系列——利用nginx 的http_image_filter_module 搭建图片网关

http_image_filter_module是nginx官方提供的图片处理模块,支持jpg、gif、png格式,但模块不是默认安装,需要在编译安装的时候开启本模块。官方模块地址:http://nginx.org/en/docs/http/ngx_http_image_filter_module.html原始需求1. 压缩图片,生成图片的缩略图;2. 生成指定比例的图片;3.

2015-09-14 18:09:33 1320

原创 LNMP系列——twemproxy缓存代理在memcached 缓存环境应用

twemproxy是Twitter开源的一个轻量级的缓存代理,支持memcached和redis,官网:https://github.com/twitter/twemproxy,以下主要介绍是在memcached环境下的应用:原始需求1. memcached 部署分散,主要以本地缓存为主,在性能压力不大情况下,做统一集中的缓存池;2. 提高memcached 的可用性,避免单台me

2015-09-14 17:59:57 311

原创 LNMP系列——Linux web环境的安全配置

php 安全配置/etc/php.ini display_errors = Off expose_php = Off enable_dl = Off disable_functions= eval,passthru,exec,system,chroot,scandir,shell_exec,proc_open,proc_get_status,ini_alter,ini_a

2015-09-11 22:58:06 539

原创 LNMP系列——Php-fpm生产环境配置

基础环境centos 6.4 安装&启动目前php5.4 以上需编译安装,本文档只针对php5.3版本,yum安装需配置epel的源,yum源配置详见Linux web环境配置 php-fpm 常用扩展安装yum install -y phpphp-fpm php-cli php-common php-pdo php-mysql php-mbstring php-m

2015-09-11 22:57:20 357

原创 LNMP系列——Mysql主从一致性检查与修复

做过mysql主从维护都知道,一旦出现主从不同步后比较麻烦,网上常见的跳过错误的方法可能会导致数据的不一致,这对于需要严格数据一致性的应用要求来说是不可接受的,手工方式重新做同步步骤比较多,以下方法是通过一个工具来完成一致性修复的问题,可以大大节省时间。使用工具Percona Toolkit:官网链接安装1.依赖安装yum install -y perl-D

2015-09-11 22:55:40 303

原创 LNMP系列——Mysql生产环境配置

基础环境centos 6.4mysql-community-server5.6 或以上安装&启动1. 配置mysql官方yum源,详见LNMP系列——Linux基础配置 2.安装server、client: yum install mysql-community-servermysql-community-client mysql-communit

2015-09-11 22:54:23 287

原创 LNMP系列——常用的linux命令

系统信息查看操作系统厂商、版本:cat /etc/issue或 lsb_release -a查看内核版本:cat /proc/version查看32/64位:getconf LONG_BIT查看cpu核心数(型号):cat /proc/cpuinfo查看内存:free -m或 cat /proc/meminfo查看磁盘:df -h查看计算机名:hostname

2015-09-11 22:53:01 358

原创 LNMP系列——Linux基础配置

环境参考centos 6.4(Final)64位 最小化安装基本设置1.ip、网关:vi /etc/sysconfig/network-scripts/ifcfg-eth0  设置完后,重启 /sbin/ifdown eth0 、/sbin/ifup eth02.dns设置:vi /etc/resolv.conf ,将 nameserver ***.***.***.

2015-09-11 22:51:48 290

原创 好记性不如好博客

平时也经常写blog,一些技术类的大多写在内部的wiki上,一些小记小抄不是在各种记事本、印象笔记等等,想找个集中的地方放放,花了70多块开了个美服的虚拟机最后也是长草了,最后还是决定写到csdn吧,文章大多是技术相关的,放在其他地方显得奇怪(例如微博),最近会陆续更新一些,可能不是最近才写的,但都是累积的一些知识和方法,给自己留个底。

2015-09-11 22:48:59 267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除