iteye_13339-CSDN博客

数据分析之我见(1)-方法论

请关注微信公共账号：数据夜谈一个数据人互相分享的小圈子! 摘要：数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥数据的作用。这是比较技术的定义，更偏向于分析本身。但数据分析更应该作为一种解决问题的方法论，指导和影响我们的工作，更有甚者，它可以引领未来。正文：作者：王鹏(沙咖) 数据分析大家...

2014-03-13 19:57:04 244

原创大数据创业与投资(2)-电子商务

请关注微信公共账号：数据夜谈来往公共账号：数据夜谈一个数据人互相分享的小圈子! 摘要：年前比较忙. 这篇开始会对大数据的具体应用场景和产品做个分享。因为笔者所在行业为互联网中的电子商务行业，所以会从电商的数据场景和产品开始。正文：作者：宋贵亮(凤超) 先谈谈数据. 在互联网用户数字行为占比我们的时间越来越严重的今天，产生了大量的结构化，非结构化...

2014-02-21 17:58:54 324

原创大数据创业与投资(1)-发展之路(二)

请关注微信公共账号：数据夜谈来往公共账号：数据夜谈一个数据人互相分享的小圈子! 摘要上篇从正面分析了大数据的发展，本篇看一看大数据在发展过程中的泡沫正文作者：宋贵亮(凤超) 大部分创业公司的主要业务都集中于应用产品类的应用分析方向，且国内更甚——国内与国外在基础设施方面1:18的差距无疑暴露了国内企业在基础设施领域的短板。从技术上看，信息的存...

2014-02-21 17:56:45 394

原创大数据创业与投资(1)-发展之路(一)

请关注微信公共账号：数据夜谈来往公共账号：数据夜谈一个数据人互相分享的小圈子! 作者：宋贵亮(凤超) 摘要：大数据时代的数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。大数据的创业和投资时代已然来临，怎么创业，怎么投资，该文来自一位阿里资深的数据人，欢迎大家多多关注和参与该系列讨论。...

2014-01-14 18:17:20 776

原创互联网思维系列(4)-案例

请关注微信公共账号：数据夜谈来往公共账号：数据夜谈一个数据人互相分享的小圈子! 摘要我们看看一个转型成功的公司是如何利用互联网思维成功的。正文一个以用户为中心而转型的公司如何成功的，这个公司就是使星巴克也有点黯然失色的绿山咖啡。绿山咖啡一直兢兢业业地卖自己的品牌的特制咖啡，在超市、麦当劳、加油站。赚钱很容易，但增长却存在天花板，大型超市进...

2014-01-09 19:47:08 365

原创互联网思维系列(3)-迭代&极致

请关注微信公共账号：数据夜谈来往公共账号：数据夜谈一个数据人互相分享的小圈子! 摘要抓住用户的痛点，专注于自身的产品，迭代地把产品或者服务做到极致，解决用户的痛点，超越用户的期望正文在解决用户核心痛点的情况下，基于用户、市场的需求，分阶段迭代推进，使我们的服务更加精益、完美。为什么需要通过迭代来完成呢？在互联网时代，用户的需求是分散的，个性化的，...

2014-01-07 19:41:21 556

原创互联网思维系列(2)-用户&服务

请关注微信公共账号：数据夜谈来往公共账号：数据夜谈一个数据人互相分享的小圈子! 摘要从传统的经营产品转为经营用户。一切围绕着用户展开，不管是产品、营销、运营、服务，一切的一切都以用户为中心正文所有的企业都会说顾客都是上帝，但以前的企业重视顾客更多是为了兜售产生利润的产品，而互联网思维中重视用户，肯定是为了解决用户某个痛点，后续才是利用大量的用户价值区产生...

2014-01-02 22:49:46 125

原创互联网思维系列(1)-总论

请关注微信公共账号：数据夜谈来往公共账号：数据夜谈一个数据人互相分享的小圈子! 摘要互联网思维的讯息，整理汇集于此，一起看看互联网上如何说互联网思维正文题外话：辞旧迎新的一天，我们开始"数据夜谈"，从13年到14年，我们期望"数据夜谈"能陪伴大家1314 互联网思维就像大数据一样，这几个名词已经被炒成泡沫了。但是确实有很多企业、个人利用不同于传统的...

2013-12-31 21:39:07 119

原创 Map使用的代码小记

Map的遍历Map的排序 Map的遍历Map<String, Integer> INPUTMAP = new HashMap<String, Integer>() { { put("a", 1); put("c", 3); put("b", 2); put("d", 4); put("e",

2013-06-21 16:31:16 112

原创 Neo4j-在JAVA中执行Cypher查询

在JAVA中使用Cypher涉及到org.neo4j.cypher.javacompat包的两个类.类名方法名说明ExecutionEnginepublic ExecutionResult execute(String query)执行query返回存储结果集的一个迭代器(ExecutionResult)(用于执行Cypher Que...

2013-05-07 08:12:27 2284 1

原创 Neo4j-Cypher查询语言-函数

断言函数(Predicate functions) 函数名称函数说明ALL(identifier in collection WHERE predicate)判断一个断言(predicate)是否满足集合(collection)里的所有元素ANY(identifier in collection WHERE predicate)判断一个断言(predicate...

2013-04-19 08:32:14 516

原创 Neo4j-Cypher查询语言-模式(Patterns)

模式是Cypher非常核心的东西，它在很多地方被用到。利用模式，你可以描述你要找的数据是什么样子。模式是被用在MATCH子句中。路径模式是表达式。Since these expressions are collections, they can also be used as predicates (a non-empty collection signifies true)。他们被用来CRE...

2013-04-19 08:24:57 281

原创 Neo4j-Cypher查询语言-更新图数据库&事务

更新图数据库Cypher可以用于查询图，同时也可以更新图。更新语句的结构Quick info一个Cypher的查询块不能同时匹配和更新任何一个查询块可以读取和匹配图，或者更新图如果你从图中读取数据，然后更新它，你的查询包括两块：第一块是读取数据，第二块是写入数据。如果查询只是读取，Cypher是lazy的，它直到你要获取结果时才会去...

2013-04-19 08:22:05 480

原创 Neo4j-Cypher查询语言-标识符&备注

标识符当你需要引用部分模式时，你需要利用命名来使用它。不同部分的命名就叫做标识符例如：1START n=node(1) MATCH n-->b RETURN bn和b都是标识符标识符是大小写敏感的，由字母(a-z)、数字(0-9)和下划线组成，但是必须已字母开头。如果必须使用其他字符，可以利用反引号'`'来标识 ...

2013-04-17 14:38:47 502

原创 Neo4j-Cypher查询语言-参数

Cypher支持带参数的查询，它允许开发者不需要do string building to create a query，同时它能使执行计划的缓存更容易。参数可以用在WHERE子句的literals和expressions、可以用在START子句或索引查询的索引键值上、节点/关系的ID上。但是参数不能用在属性名上，因为属性是查询结构的一部分，是要编译成执行计划的。参数名称只能...

2013-04-17 14:29:29 1832 1

原创 Neo4j-Cypher查询语言-表达式

Cypher里的表达式包括：数值(integer or double)： 13， 40000, 3.14字符串： “hello world”布尔值： true, false, TRUE, FALSE识别码：n, x, rel, myFancyIdentifier, `A name with weird stuff in it[]!`属性： n.prop, x.prop,...

2013-04-17 14:28:17 442

原创 Neo4j-Cypher查询语言-操作符

Cypher的操作符有三类：数学、等式和关系数学操作符：+,-,*,/和%。其中只有+能作用在字符串和集合上等式操作符：=,<>,<,>,<=,>= 因为Neo4j是一种模式自由的图数据库，Cypher还有2个特殊的操作符？和！他们是被用在属性上面处理缺省值，在一个不存在的属性上进行比较，一般会报错。一般在对属性值做比较前需要先判断这个属...

2013-04-17 14:24:53 372

原创 Neo4j-Cypher查询语言

Cypher系列资料包括：Neo4j-Cypher查询语言-操作符Neo4j-Cypher查询语言-表达式Neo4j-Cypher查询语言-参数Neo4j-Cypher查询语言-标识符&备注Neo4j-Cypher查询语言-更新图数据库&事务Neo4j-Cypher查询语言-模式(Patterns)Neo4j-Cypher查询语言-语法Neo...

2013-04-17 14:20:15 399

原创 [解决方案]java.net.URISyntaxException: Illegal character in query at index

导致这种错误的原因是因为URL没有进行编码，URL不识别你提供的URL字符串String test = "{hello world!}";String testEncode = URLEncoder. encode(test, "utf-8" );String testDecode = URLDecoder.decode(testEncode, "utf-8");Sys...

2013-03-18 16:27:09 11197

自整理手册Jersey Client API

参考Jersey的文档http://jersey.java.net/nonav/documentation/latest/client-api.html 整理自己使用的手册，同时希望能给大家也带来便利使用Jersey Client API的步骤1.创建一个Client的实例Client c = Client.create(); 2....

2013-02-07 12:20:36 243

原创【读书】《重来:更为简单有效的商业思维》

可以快速获取知识的一本书，每小节篇幅不长，但用精简的方式表达了一种思想，于工作、于个人，看完都能引发一些思考。把每小节个人认为比较受用的内容整理出来，于己，有空翻翻，获取不同的体会；于大家，可以快速了解本书的大概内容，以便催进大家尽快收藏这么一本好书。卸负篇：忘了"现实世界"：不要一味在意有些人说：这个在现实世界中完全行不通。有些人的现实，和你自己的现实世界不一样，...

2013-01-31 07:15:09 268

原创【学习】从HttpClient3迁移到HttpClient4

网上很多HttpClient的学习源码都是3版本的，不过，既然现在HttpClient已经升级成Apache的顶级项目，自然想使用新版本。但是4版本完全是重新编写，而不能向下兼容。所以在学习调试源码时，利用的4的库，就不能直接运行3.1下的源码。结合网上资源或自己实践，把3迁移4的一些资料收集整理于此，于己于人都会有帮助。jar包的变更，可以在此下载最新的jar包：http://h...

2013-01-08 22:25:04 193

HBASE源码阅读(1)--启动脚本

HBASE所有功能模块的启动都是通过start-hbase.sh调起的，所以源码学习之路就从start-hbase.sh开始。start-hbase.sh主要和如下几个启动文件相关：hbase，hbase-daemon.sh，hbase-daemons.sh，zookeepers.sh，regionservers.sh，hbase-config.sh。相关的shell源码分析可以看...

2012-09-27 15:38:02 109

原创 LINUX的SHELL变量含义

shell变量含义$$Shell本身的PID（ProcessID）$!Shell最后运行的后台Process的PID $?最后运行的命令的结束代码（返回值）$-使用Set命令设定的Flag一览$*所有参数列表。如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输出所有参数$@所有参数列表。如"$@"...

2012-09-27 10:56:01 70

原创【学习】设计模式-创建型模式(1)

创建型模式：用来创建对象的模式，是对类的实例化过程的抽象化，它帮助一个系统独立于如何创建、组合和表示它的那些对象，即为了使体系结构更加清晰，有些软件在设计上要求当创建类的具体实例时，能够根据具体的语境来动态地决定怎样创建对象，创建哪些对象，以及怎样组织和表示这些对象。按照生成目标的不同，创建型模式可以分为类的创建型模式和对象的创建型模式。类的创建型模式：通过使用继承关系，将...

2012-09-19 14:51:38 137

原创【转】Hadoop 中的两表join

原文见：http://www.gemini5201314.net/hadoop/hadoop-%E4%B8%AD%E7%9A%84%E4%B8%A4%E8%A1%A8join.html 作为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各种不同的算法论文出现，讨论...

2012-08-09 10:35:16 82

HIVE动态分区参数配置

设置如下参数开启动态分区：hive.exec.dynamic.partition=true默认值：false描述：是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值：strict描述：strict是避免全分区字段是动态的，必须有至少一个分区字段是指定有值的设置如下参数配置动...

2012-07-30 15:33:45 670

配置HIVE执行的本地模式

自0.7版本后Hive开始支持任务执行选择本地模式(local mode)，如此一来，对数据量比较小的操作，就可以在本地执行，这样要比提交任务到集群执行效率要快很多。配置如下参数，可以开启Hive的本地模式：hive> set hive.exec.mode.local.auto=true;(默认为false)当一个job满足如下条件才能真正使用本地模式：...

2012-07-21 09:20:18 478

HIVE表数据量和数据记录数的矛与盾

HIVE作为在Hadoop分布式框架下的数据仓库技术，处理大数据量是最基本的诉求，这种海量处理是基于分布式框架，利用分布式存储，分布式计算，利用大集群的资源并行处理海量数据。但是一旦我们不能利用这种分布式并行处理，那么海量数据只能是低效处理了。再往细处说，就是一份海量数据需要多少map来处理，一个map能处理多少数据，这些都制约着数据处理的效率。HIVE的执行效率问题可以...

2012-07-06 09:45:12 402

【头脑风暴】产品流程图

很久以前的博客，回归到官方博客来，欢迎大家拍砖我的感觉：作为天天和数据打交道的数据仓库工程师，接触数据多了，接触数据产品多了，多少对产品有了自己的小小体会，看到这个流程图挺有感触的。(自我感觉有产品经理的潜力，不是自恋，是要有自信：)) 一个产品是需要有个“点”的，正是这个“点”迸发出一个产品的idea，而能找到这个“点”是需要功力的，暂且不说功力(因为我还没达到这个功...

2012-07-02 14:31:13 331

PYTHON-字符串处理函数

在互联网行业，文本数据远大于结构化的数据，海量的数据的文本处理也是迫在眉睫。字符串的字符操作>>> s='hello World! Everyone! This Is My First String!'>>> s #打印出s的内容'hello World! Everyone! This Is My First String!'>&...

2012-07-02 14:27:08 81

PYTHON-文件输入输出学习

文件字符流的输入输出对应的函数不太多，大概如下几个函数能满足大部分的需求open()close() read()readline()readlines()write()writelines() seek()tell() ...

2012-07-02 14:25:12 50

HIVE如何使用自定义函数

HIVE提供了很多函数，但这些函数只能满足一般的需求，针对复杂的业务分析，需要自己开发适合业务需求的函数。如何开发HIVE的UDF/UDAF/UDTF，请参看如下博客介绍的自定义函数的模板：http://hugh-wangp.iteye.com/blog/1472371如何在HIVE中使用自己定义的函数，可以有几种方式：1.在HIVE会话中add 自定义函数的jar文...

2012-06-28 19:44:27 163

[陷阱]HIVE外部分区表一定要增加分区

刚开始玩HIVE外部表可能会遇到的小陷阱。只要我们牢记外部表也是一种表就可以，普通表有分区，外部表也是有分区的。所以如果是基于分区表创建的外部表一定要对外部表执行ALTER TABLE table_name ADD PARTITION。否则是根本访问不到数据的。例子应该会更直观：原始的表：hive> desc shaka_test_external;...

2012-06-27 16:43:56 349

原创 Hadoop查看目录空间使用情况

查看目录空间使用情况命令：hadoop fs -count [-q] <paths>统计出目录数、文件数及指定路径下文件的大小，输出列为：DIR_COUNT, FILE_COUNT, CONTENT_SIZE FILE_NAME.带上-q选项后的输出列为：QUOTA, REMAINING_QUOTA, SPACE_QUOTA, REMAINING...

2012-06-26 18:42:59 3465

HIVE元数据

HIVE元数据表数据字典：表名说明BUCKETING_COLSHive表CLUSTERED BY字段信息(字段名，字段序号)COLUMNSHive表字段信息(字段注释，字段名，字段类型，字段序号)DBS NUCLEUS_TABLES元数据表和hiv...

2012-06-20 12:52:37 151

原创 LINUX下单机安装HADOOP+HIVE手册

HADOOP篇HADOOP安装1.tar -zvxf hadoop-0.19.2.tar.gz2.HADOOP的安装路径添加到环境文件/etc/profile中：export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2export PATH=$HADOOP_HOME/bin:$PATHHADOOP配置1.在...

2012-05-31 15:59:17 231

推测执行的不适应场景

在HADOOP里，如果一个任务运行比预期的慢，就会尽快检测和启动另一个相同的任务作为备份来执行相同的工作，虽然它会降低执行慢的任务执行失败带来的损失，但也会消耗更多的资源，执行重复的工作。有利有弊，可以选择使用。自己写MR代码时就遇到了推测执行会产生错误的情况。当我使用MultipleOutputFormat来把不同数据写到不同目录里时就报错了，错误信息为：org.a...

2012-05-25 16:13:12 194

JAVA正则表达式--不包含指定字符串

功能需求：URL的字符串匹配，但又不能包含指定的字符串URL为我的ITEYE空间：http://hugh-wangp.iteye.com/我想统计我ITEYE空间的流量，但是又不想知道微博(weibo)和收藏(link)的流量所有我要在匹配：http://hugh-wangp.iteye.com的同时，URL里又不能有weibo和link字符串功能实现：...

2012-05-24 14:57:14 1508

何为大数据

1.数据规模这个是最基本的要求，数据规模不到一定级别，你就不好意思说你是大数据。但数据规模多大才算大，我给不出来一个通用的数字去界定大数据。虽然很多公司的数据量都会上P，但这个不能作为大数据的标准。自我感觉，能称自己公司已经进入大数据时代，这个公司就需要考虑如下几点去应对自己的数据：1.独立的离线历史数据存储；2.数据保密管理策略；3.数据仓库+数据分析；4.成熟的基于数据的商业模式或...

2012-05-19 22:36:53 88

空空如也

空空如也