2016年01月_will的成长之路

原创 Broadleaf电商系统开发(四) - 切换到mysql

Broadleaf 默认使用的数据库是hsqldb，所有数据都存储在内存中，每次重启服务器，数据销毁再重键。因此在生产环境中，肯定要切换到其他数据库如mysql，这里介绍的就是使用Mysql数据库。官方的参考文档如下： http://www.broadleafcommerce.com/docs/core/current/tutorials/getting-started-tuto

2016-01-31 21:19:57 2995 1

原创大数据系列文章汇总 - 更新到15篇

大数据(一) - hadoop生态系统及版本演化大数据(二) - HDFS大数据(三) - YARN大数据(四) - MapReduce大数据(五) - HBase大数据(六) - ZooKeeper大数据(七) - Flume大数据(八) - Sqoop大数据(九) - Hive大数据(十) - Pig大数据(十一)

2016-01-31 20:25:30 9850 2

转载 11款开放中文分词引擎大比拼

在逐渐步入DT（Data Technology）时代的今天，自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说，并没有类似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第一步。汉语自动分词的任务，通俗地说，就是要由机器在文本中的词与词之间自动加上空格。一提到自动分词，通常会遇到两种比较典型的质疑。一种质疑是来自外行人的：这件事看上去平凡之极，好像一点儿也不“fancy”

2016-01-30 12:27:44 4595

原创 solr5.4.1 quick start

solr的重大变化：从5.0开始，solr不再以war包发布（war包可以部署到任何servlet容器中），而是以独立的java服务器程序的形式发布（基于内嵌的jetty），它有启动/停止脚本，还有安装脚本用于在类unix上安装一个solr产品，后续版本不支持部署到其他的servlet容器上（如tomcat）。系统要求： JDK>=1.7，不要使用JVM实验性的-XX参数官网

2016-01-30 12:19:46 1707

转载搜索引擎的比较和选择：Elasticsearch与Solr

搜索引擎选择： Elasticsearch与Solr搜索引擎选型调研文档Elasticsearch简介*Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索，结构化搜索以及分析，当然你也可以将这三者进行组合。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™

2016-01-30 12:12:43 6926

原创 lucene、solr、nutch三者的关系

lucene是一个做搜索用的类库。 nutch和solr都是基于lucene的，二者都是可直接运行的应用程序；直接在业务上使用lucene的倒是不太多见。 solr主要提供了建立索引（用户可以直接post数据给solr，然后由solr进行索引）和提供查询索引的功能（它内嵌了jetty，可以直接提供HTTP服务）；nutch一般用作爬虫使用，负责抓取数据。solr的重大变化：从

2016-01-30 11:24:58 6390 1

原创打包和解包汇总：gz、bz2、xz、zip

gztar -xvzf abc.tar.gz //gz压缩的解包、打包tar -cvzf abc.tar.gz abc.txtbz2tar -xvjf abc.tar.bz2 //bz2格式的解包、打包tar -cvjf abc.tar.bz2 abc.txtxz先xz

2016-01-28 22:01:00 1793

原创 Linux常用命令总结A-Z

alias 添加别名，比如自定义简便的命令 alias cd1='cd ..'apt-get=advanced packaging tool get，适用于deb包管理式的操作系统，主要用于自动从互联网的软件仓库中搜索、安装、升级、卸载软件或操作系统；如 apt-get install synaptic 新立得 apt

2016-01-28 21:56:21 3299

原创 android抓取各种log的方法

1、logcat （四类log buffer是main，radio，system，events）adb wait-for-device logcat adb logcat -v time > logcat.txt //默认是-b main -b systemadb logcat -v time -b main //main logadb

2016-01-27 22:16:05 15798 3

原创 Broadleaf电商系统开发(三) - 汉化

需要翻译的messages.properties都定义在这些xml的messageSource bean中 bl-cms-contentCreator-applicationContext.xml bl-admin-applicationContext.xml bl-open-admin-contentCreator-a

2016-01-27 22:06:38 5666 1

原创 Broadleaf电商系统开发(二) - 启动项目

BroadleafCommerce官网有启动项目的教程，那个教程需要依赖Eclipse，不易理解；这里是自己总结的另一种启动方法，完全命令行操作，很容易理解为什么这么做准备条件是安装JDK1.7，maven项目主要分为两部分，一是基础代码项目BroadleafCommerce，而是web项目DemoSite，后者依赖前者1、下载代码 https://githu

2016-01-26 21:25:30 4956

原创 Broadleaf电商系统开发(一) - Broadleaf介绍

Broadleaf Commerce 是一个开源的 Java 电子商务平台，基于 Spring 框架开发。提供一个可靠、可扩展的架构，可进行深度的定制和快速开发。Broadleaf Commerce源代码托管在GitHub上，目前已经发展到4.x版本。这里是官方的demo，可以一睹为快http://demo.broadleafcommerce.org/关键方面和

2016-01-26 12:35:38 8482 4

原创 android ADB很有用的命令，看你用过几个？

adb shell mount -o remount rw / 将/改为可写adb kill-server //终止adb服务进程adb wait-for-device //在模拟器/设备连接之前把命令转载在adb的命令器中,后边跟命令，插上手机后，就会执行后面的命令，如adb wait-for-device;adb shelladb bugreport > bugrepo

2016-01-25 12:49:03 5703

原创 Java开源电商项目比较

这里比较的都是国外的开源项目，备选项目有：Smilehouse Workspace、Pulse、Shopizer、ofbiz、bigfish、broadleaf1、Smilehouse Workspace 是一个采用 Java 开发的电子商务应用程序，用来做产品、定案和客户信息管理。（从官网看，更像是一个管理系统）2、Pulse没有使用spring，使用了hibernate，不清楚

2016-01-25 12:35:02 27507 5

原创中国十大B2C电商网站开发语言调查

中国B2C电商网站市场占有率排名如下开发语言调查结果如下：天猫：java（淘宝最初买了一个php语言写的电商系统，简单改造后上线，使用半年后开始换到java语言，自建系统）京东：.net 转向java苏宁：ibm wcs系统转向java唯品会：php、java都在使用国美在线：未知一号店：java当当：前端页面系统主要使用PHP语言（HHVM），购买流程

2016-01-24 14:32:07 13690

原创 Linux前台、后台、挂起、退出、查看命令汇总

command & 直接在后台运行程序ctrl+c 退出前台的命令,不再执行ctrl+z挂起前台命令暂停执行，回到shell命令行环境中bg 将刚挂起的命令放到后台运行bg %3 将第三个job放到后台运行kill %3 杀死第三个job，不再执行fg 将刚挂起的命令返回前台运行fg %3 将第三个job返回前台运行jobs 察看当前shel

2016-01-24 13:57:04 44132 1

原创大数据(十五) - JStorm

JStorm 是一个分布式实时计算引擎，是淘宝开源的随着Storm 的规模越来越大，发现原有的很多Storm设计，只能适合小集群中运行，当集群规模超过100台时，均会出现一些或这或那的问题。JStorm 比Storm更稳定，更强大，更快， Storm上跑的程序，一行代码不变可以运行在JStorm上。storm/Jstorm的安装、配置、启动几乎一模一样从应用的角度，JStorm

2016-01-23 16:04:34 4990

原创大数据(十四) - Storm

storm是一个分布式实时计算引擎storm/Jstorm的安装、配置、启动几乎一模一样storm是twitter开源的storm的特点storm支持热部署，即时上限或下线app可以在storm上使用各种编程语言如clojure、java、ruby、python等本地模式：storm有一个本地模式，可以在处理过程中完全模拟storm集群，便于开发和测试。

2016-01-23 15:51:25 3405

原创 /dev/null 的含义和用途

/dev/null 代表空设备文件，它等价于一个只写文件，所有写入它的内容都会永远丢失，而尝试从它那儿读取内容则什么也读不到。0:表示键盘输入(stdin)1:表示标准输出(stdout),系统默认是12:表示错误输出(stderr)1>/dev/null等同于 >/dev/null>/dev/null 2>/dev/null 等同于 >/dev/nul

2016-01-22 14:08:24 4534 1

原创大数据(十三) - Azkaban

Azkaban基本架构Azkaban使用方式 REST API WEB UI 用户权限管理提交作业流查看作业流运行进度Azkaban作业流表达方式每个作业描述对应一个“.job”文件支持Shel

2016-01-22 13:45:28 2180

原创 Linux下比find快N倍的文件查找命令

使用linux操作系统的人，一般都用过文件查找命令find，在文件数量非常庞大的时候，比如在高通的android工程项目中，目录大小有十几个G，文件数量非常多，用find命令就太慢了。下面介绍一个比find快得多的命令，搜索任何文件几乎都能在一秒内返回，时间复杂度O(1)。mlocate这个命令的原理是，先为文件系统创建索引数据库，mlocate只是搜索索引，所以速度快准备

2016-01-21 13:28:58 8592 3

原创大数据(十二) - Oozie

基本概念目前计算框架和作业类型繁多： MapReduce Java、Streaming、HQL、Pig等如何对这些框架和作业进行统一管理和调度：不同作业之间存在依赖关系（DAG）；周期性作业定时执行的作业作业执行状态监控与报警多种解决方案： Cro

2016-01-21 13:09:34 4328

原创 Linux下的一个快速跳转到上N层目录的简单方法

编辑文件vim .bashrc （使修改在当前用户下有效）或者vim /etc/profile （需要在root用户下执行，使修改在所有用户下有效）在文件结尾添加别名alias cd1='cd ..'alias cd2='cd ../..'alias cd3='cd ../../..'alias cd4='cd ../../../..'alias cd5=

2016-01-20 06:59:35 4369

原创大数据(十一) - Mahout

传统数据挖掘/机器学习库存在的问题缺少一个活跃的技术社区扩展性差文档化差，缺少实例不开源，商业化库通常由研究机构开发实施性差Apache Mahout优点技术社区活跃扩展性好文档化好，实例丰富

2016-01-20 06:47:06 4433

原创大数据(十) - Pig

Pig是什么 Hadoop上的数据流执行引擎（由Yahoo！开源）利用HDFS存储数据利用MapReduce处理数据使用Pig Latin语言表达数据流 Pig Latin是一种新的数据流语言 Pig将Pig Latin语

2016-01-19 06:30:38 5407

原创大数据(九) - Hive

构建在Hadoop之上的数据仓库，数据计算使用MR，数据存储使用HDFS 因为数据计算使用mapreduce，因此通常用于进行离线数据处理Hive 定义了一种类 SQL 查询语言——HQL 类似SQL，但不完全相同可认为是一个HQL-->MR的语言翻译器。简单，容易上手有了Hive，还需要自己写MR程序吗？ Hive的H

2016-01-19 06:28:18 5129 1

原创 IP数据库的比较和选择

网络上最有名是纯真 IP 库，其他可选项有：ipip.net 数据库和各种语言版本的API http://www.ipip.net/download.html 已经有很多国内大公司购买站长的一篇博客，ip库需要常更新，且准确率不可能达到100%，对纯真库的一些方面还是有质疑的参考了纯真 IP 库、淘宝 IP 库、腾讯 IP 库、新浪 IP 库、中国

2016-01-18 14:42:00 10050 4

原创大数据(八) - Sqoop

Sqoop是什么 Sqoop：SQL-to-Hadoop 连接传统关系型数据库和 Hadoop 的桥梁把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS HBase 和 Hive) 中；把数据从 Hadoop 系统里抽取并导出到关系型数据库里。利用Map

2016-01-18 07:12:01 2310

原创大数据(七) - Flume

flume[flu:m]：日志采集、聚合和传输的系统，java语言实现http://flume.apache.org/http://flume.apache.org/FlumeUserGuide.htmlflume是干什么的？收集日志的flume如何搜集日志？我们把flume比作情报人员（1）搜集信息（2）获取记忆信息（3）传递报告间谍信息f

2016-01-18 07:10:33 3208 1

原创大数据(六) - ZooKeeper

Zookeeper是什么是一个针对大型分布式系统的可靠协调系统；提供的功能包括：配置维护、名字服务、分布式同步、组服务等；目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户； Zookeeper已经成为Hadoop生态系统中的基础组件。Zookeeper特点

2016-01-17 22:38:43 5057

原创大数据(五) - HBase

HBase是一个构建在HDFS上的分布式列存储系统，主要用于海量结构化数据存储，从逻辑上讲，HBase将数据按照表、行和列进行存储。HDFS适合批处理场景不支持数据随机查找不适合增量数据处理不支持数据更新以上HDFS不适合、不支持的场景，HBase都支持大数据上高并发操作，比如每秒对PB级数据进行上千次操作，并

2016-01-16 07:34:28 6084

转载建立学习型组织 - 解决了我几年的困惑

转载一篇文章，解决了我几年的困惑。原文出处： http://blogread.cn/it/article/7113?f=catetitle前些天看到余晟老师写了一篇文章《领导需要比下属更懂技术吗？》，提出了一个对于很多技术管理者来说的困惑：技术领导必须更懂技术吗？做了领导以后，因为工作的关系，许多人都不那么熟悉基础的技术了，结果自己心里没底，更怕遇到问题时在下属面前丢脸。所以，有些

2016-01-15 22:44:42 2118 2

原创大数据(四) - MapReduce

MapReduce适合PB级以上海量数据的离线处理MapReduce不擅长什么实时计算像MySQL一样，在毫秒级或者秒级内返回结果流式计算 MapReduce的输入数据集是静态的，不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的

2016-01-15 21:39:18 3983

原创大数据(三) - YARN

YARN是资源管理系统，理论上支持多种资源，目前支持CPU和内存两种资源YARN产生背景直接源于MRv1在几个方面的缺陷扩展性受限单点故障难以支持MR之外的计算多计算框架各自为战，数据共享困难 MR：离线计算框架 Storm：实

2016-01-14 22:44:30 18107

原创 web项目技术选型

服务器：阿里云ecs+rdscentos6nginxjava 1.7tomcat7（支持servlet3.1）（tomcat8对jstorm支持不好）mysqlspringspringMVCmybatisjqueryvelocityjackson=========================================

2016-01-13 22:25:42 8162 1

原创大数据(二) - HDFS

HDFS优点高容错性数据自动保存多个副本副本丢失后，自动恢复适合批处理移动计算而非数据数据位置暴露给计算框架适合大数据处理 GB、TB、甚至PB级数据百万规模以上的文件数量

2016-01-12 21:53:44 10601

原创大数据(一) - hadoop生态系统及版本演化

HDFS：分布式存储系统（Hadoop Distributed File System）：提供了高可靠性、高扩展性和高吞吐率的数据存储服务 HDFS源自于Google的GFS论文 (发表于2003年10月 )，是GFS克隆版YARN：资源管理系统（Yet Another Resource Negotiator）：负责集群资源的统一管理和调度，Hadoop 2.0新增系

2016-01-11 20:30:22 13515

Java开源电商系统BroadLeaf文档

Java开源电商系统BroadLeaf

空空如也