2015年09月_艾文教编程

12月 11月 10月 09月 06月 04月 02月 01月

原创 101电商平台高频实时访问架构

对于一个大型网站的电商平台来说，随着业务不断增长，用户规模不断增加。面对大流量、高并发的访问，网站性能问题就成了一个瓶颈，那么如何分析一个网站处理的能力，需要我们通过多方面的指标来分析处理。这些指标一般包括：首页平均响应时长、搜索商品处理能力、登录鉴权能力、下单处理能力等。通过实时分析各个指标的能力可以为网站的建设者提供优化方案。接下来通过模拟下单生成日志，来实时分析下单处理能力。这些方案具有很强的通用性，只要掌握处理方案的方法，就可以做到应对一切变化.

2015-09-25 19:26:08 1292

原创 005 执行mapreduce加强，利用hive统计分析电商网站用户行为指标

通过搭建大数据平台，然后利用hadoop+hive对用户行为日志加强并分析，统计网站中常用到的一些关键性指标，用于指导运营和建设，更好服务于客户。

2015-09-24 18:00:30 3090

原创 JAVA中常用的正则的一些案例分析

JAVA当中的正则还是非常有的，在这里通过代码的方式整理一些JAVA代码，然后分享给大家，可以作为一个参考

2015-09-24 17:51:03 538

原创 004 开发mapreduce程序对用户行为日志加强

对于用户行为日志一般处理思路：通过mapreduce对日志进行增强，然后保持到hdfs上，通过hive分析各个指标

2015-09-24 17:42:28 1012

原创 003 利用hadoop+hive离线处理日志-方案分析

利用hadoop+hive离线处理日志，简单描述一些步骤

2015-09-24 17:23:07 4108

原创 002中小规模电子商务网站用户行为日志收集方案

对于一个中小型规模的电商商务网站来说，如何收集用户行为日志是一个首先要解决问题。这里采用Nginx来完成

2015-09-24 16:49:57 3768 1

原创 001电商用户行为分析业务整体介绍

更好的为电子商务网站提供运营，需要建设一套用户行为分析的平台。以此来统计用户行为日志，订单数据，更好的服务和支撑运营。就是这样的通用性的平台，思考了好久，整理一下。同各位分享

2015-09-24 16:23:36 3839 1

原创 hadoop集群模式下导入数据到hbase上报错

hadoop集群模式下导入数据到hbase上报错

2015-09-22 13:38:18 846

原创 015-Spark SQL与 Hive集成

原生spark1.4.0 和hive1.3.0 集成，并对比spark-sql和hive执行效率

2015-09-01 20:30:42 1606

原创 012-02Spark On YARN Scala 开发WordCount计数

Spark On YARN Scala 开发WordCount计数

2015-09-01 20:25:31 1096

原创 012-01Spark On YARN 环境搭建

spark on yarn 环境的搭建和验证

2015-09-01 20:24:09 4818

原创 010-spark standalone模式Scala版本WordCount代码

spark standalone模式WordCount代码计算，通过maven，scala2.10.5

2015-09-01 20:20:46 1207

原创 008-spark 的调度

spark 的调度

2015-09-01 20:15:59 433

原创 007-spark的wordCount

spark wordcount 基本介绍

2015-09-01 20:14:14 693

原创 005-spark standalone模式安装

spark standalone模式安装与验证

2015-09-01 20:12:33 1082

原创 004-spark local模式

spark local模式下载，安装，验证

2015-09-01 20:10:44 3580

原创 003-spark名词和架构介绍

引入spark中涉及到的专业术语

2015-09-01 20:07:28 865

原创 002-mapreduce经典模型

在讲解spark前，给出mapreduce的经典计算模型

2015-09-01 20:05:43 615

原创 001-spark生态系统介绍

spark生态系统介绍,主要包括spark概念；spark历史；spark生产系统

2015-09-01 20:02:57 3199

pytorch-flask-api.zip

本章节中，我们将使用Flask 部署一个Pytorch模型，并未模型预测提供一个REST API 接口。下面，我们部署一个预训练好的模型DenseNet 121，该模型用于检测图片

2019-08-26

word2vec-sentiments-IMDB-Data.zip

词向量在NLP被广泛应用，通过引入Doc2Vec，不仅可以对单个词进行词向量表示，而且可以对整个句子或文章进行表示。想象一下，能够使用固定长度的向量表示整个句子，然后我们可以使用标准的分类算法去分类。是一件很神奇的事情。本章以Word2Vec 为基础，使用Doc2Vec 来做些情感分析的任务问题。 IMDB预料进行分类（积极or消极），可以提供的数据集

2019-07-26

tachyon 介绍

Tachyon是以内存为中心的分布式文件系统，能够为集群计算框架（如：Spark，MapReduce等）提供内存级速度的跨集群文件共享服务。本文档让你快速入门

2016-02-18

CDH的安装和使用

开源的hadoop生态圈的安装和维护很难，通过cloudera公司的cdh来管理，但是对于CDH的安装对于初学者总会存在一定的困难，本文档详细介绍CDH的离线安装和使用

2015-12-08

solr搜索引擎-课程文件培训

本文档包括以下内容，通过下载该内容可以让你掌握solr学习的入门和适应基本开发。 1.学员操作手册-Solr搜索自动补全 2.solr实训教程.doc 3.积分商城基于Solr的搜索引擎优化.pdf 4.基于Solr的搜索引擎优化讲义.pdf 5.课程大纲-基于搜索引擎培训.doc 6.学员操作手册-Solr数据库插入索引.doc 7.学员操作手册-部署solr服务.doc

2014-02-20

solr企业级搜索引擎准备阶段

Apache Solr 是一个开源的搜索服务器，Solr 使用 Java 语言开发，主要基于 HTTP 和 Apache Lucene 实现. Solr 运行在Java的Servlet容器上，诸如： Tomcat or Jetty。 Solr 是一个免费的开源搜索引擎免费软件。 Solr 是一个基于Lucence的开源项目，可以通过下面网址下载。 http://lucene.apache.org/solr/ http://archive.apache.org/dist/lucene/solr/

2013-11-19