青堂主-CSDN博客

转载吴恩达机器学习教程中文笔记目录

吴恩达机器学习教程中文笔记目录课程地址：https://www.coursera.org/course/ml第一周一、引言(Introduction)1.1 欢迎1.2 机器学习是什么？1.3 监督学习1.4 无监督学习二、单变量线性回归(Linear Regression with One Variable)2.1 模型表示2.2 代价函数2.3 代价函...

2019-01-22 01:07:59 460

转载 AIQ - deeplearning.ai 全套吴恩达老师的深度学习课程笔记及资源在线

http://www.6aiq.com/deeplearning_ai/html/SUMMARY.html深度学习笔记目录第一门课神经网络和深度学习(Neural Networks and Deep Learning)第一周：深度学习引言(Introduction to Deep Learning)1.1 欢迎(Welcome)1.2 什么是神经网络？(What is a N...

2019-01-13 11:10:04 920

转载分布式系统的数据一致性和事务处理

当我们在生产线上用一台服务器来提供数据服务的时候，我会遇到如下的两个问题：1）一台服务器的性能不足以提供足够的能力服务于所有的网络请求。2）我们总是害怕我们的这台服务器停机，造成服务不可用或是数据丢失。于是我们不得不对我们的服务器进行扩展，加入更多的机器来分担性能上的问题，以及来解决单点故障问题。通常，我们会通过两种手段来扩展我们的数据服务：1）数据分区：就是把数

2017-10-02 10:39:42 437

原创互联网分布式系统理论与技术要点

一、分布式系统的难点互联网上大型的网站、电商、搜索、大数据等系统都是基于分布式系统的，能处理高并发、高可用、大数据量、并且拥有良好的扩展性，是目前大型互联网系统架构的主要思想。那么分布式系统比起单机系统存在哪些难点呢？1. 网络因素由于服务和数据分布在不同的机器上，每次交互都需要跨机器运行，这带来如下几个问题：1. 网络延迟：性能、超时同机房的网络IO还是比较块的，但是跨机房，

2017-10-02 10:29:26 436

转载 Kafka技术内幕

1 概述Kafka起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Kafka凭借着自身的优势，越来越受到互联网企业的青睐，唯品会也采用Kafka作为其内部核心消息引擎之一。Ka

2017-10-02 10:09:15 1641

原创基于SOA的电商项目分布式架构

现在互联网电商项目购物平台基本都是使用SOA分布式来作为系统主要架构。为什么有那么多的电商项目都选择SOA作为系统架构呢？这是因为电商行业的项目它存在以下特点：分布式、高并发、高可用、集群、负载均衡、海量数据、系统安全等一系列问题都需要解决，而SOA分布式架构正好能很好的解决这些问题。下面是我之前开发过的一个电商项目，简要分享一下SOA架构开发流程，希望能够帮到大家，如有不妥，请指

2017-09-30 11:29:33 3682

原创大型互联网分布式系统架构技术要点

大型互联网分布式系统架构技术要点解决问题的通用思路是将分而治之（divide-and-conquer），将大问题分为若干个小问题，各个击破。在大型互联网的架构实践中，无一不体现这种思想。架构目标低成本:任何公司存在的价值都是为了获取商业利益。在可能的情况下，希望一切都是低成本的。高性能:网站性能是客观的指标，可以具体体现到响应时间、吞吐量等技术指标。系统的响应延迟，指系统完

2017-09-30 11:26:28 5180

转载大数据价值变现的10种商业模式及利弊分析

有人说大数据是「石油」是「黄金」，涂子沛说大数据是「土壤」，而马云说大数据是「生产资料」，我觉得他们说得都对，但是也都不对。因为大数据就是「大数据」。当大数据应用在不同的领域和不同的场景下，所产生的意义及其所代表的意义也都不一样，你没有办法用一句话完全概况。大数据是互联网时代不可或缺的产物，不管你愿不愿意，大数据就在那里，你我都是大数据的制造者同时也是受惠者，这个生态圈的闭环已经形

2017-09-30 10:20:20 13787 1

转载人工智能之机器学习

Github开源机器学习系列文章及算法源码1.人工智能之机器学习体系汇总【直接上干货】此处梳理出面向人工智能的机器学习方法体系，主要体现机器学习方法和逻辑关系，理清机器学习脉络，后续文章会针对机器学习系列讲解算法原理和实战。抱着一颗严谨学习之心，有不当之处欢迎斧正。监督学习 Supervised learning人工神经网络 Artificial neura

2017-09-30 10:17:08 394

转载机器学习概述

机器学习就是把无序的数据转换成有用的信息。获取海量的数据从海量数据中获取有用的信息我们会利用计算机来彰显数据背后的真实含义，这才是机器学习的意义。机器学习场景例如：识别动物猫模式识别（官方标准）：人们通过大量的经验，得到结论，从而判断它就是猫。机器学习（数据学习）：人们通过阅读进行学习，观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴，得到结论，

2017-09-30 10:06:58 265

转载机器学习的十三个框架

在过去的一年里，机器学习炙手可热。机器学习的“突然”降临，并不单纯因为廉价的云环境和更强有力的GPU硬件。也因为开放源码框架的爆炸式增长，这些框架将机器学习中最难的部分抽象出来，并将这项技术提供给更广大范围的开发者。这里有新鲜出炉的机器学习框架，既有初次露面的，也有重新修改过的。这些工具被大众所注意，或是因为其出处，或是因为以新颖的简单方法处理问题，或是解决了机器学习中的某个特定难题，或者

2017-09-30 10:04:04 731

转载 Spark图计算GraphX介绍及实例

1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知·，社交网络中人与人之间有很多关系链，例如Twitter、Facebook、微博和微信等，这些都是大数据产生的地方都需要图计算，现在的图处理基本都是分布式的图处理，而并非单机处理。Sp

2017-09-29 17:08:17 5750

转载 Spark MLlib（下）--机器学习库SparkMLlib实战

1、MLlib实例1.1 聚类实例1.1.1 算法说明聚类（Cluster analysis）有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能相似，簇与簇之间的object尽可能相异。聚类算法是机器学习（或者说是数据挖掘更合适）中重要的一部分，除了最为简单的K-Means聚类算法外，比较常见的还有层次法（CURE、CHAMELEON

2017-09-29 17:05:32 837 1

转载 Spark MLlib（上）--机器学习及SparkMLlib简介

1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义：l“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is

2017-09-29 17:04:25 901

转载 Spark Streaming（下）--实时流计算Spark Streaming实战

1、实例演示1.1 流数据模拟器1.1.1 流数据说明在实例演示中模拟实际情况，需要源源不断地接入流数据，为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能：通过Socket方式监听指定的端口号，当外部程序通过该端口连接并请求数据时，模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2 模拟器代码import java.io.{PrintWriter}

2017-09-29 17:02:55 389

转载 Spark Streaming（上）--实时流计算Spark Streaming原理介绍

1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算

2017-09-29 17:00:48 1152

转载 SparkSQL（下）--Spark实战应用

1、运行环境说明1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS 64位，单核l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为64位）Ø

2017-09-29 16:56:10 276

转载 SparkSQL（中）--深入了解SparkSQL运行计划及调优

1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS6.5 64位，单核l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为

2017-09-29 16:54:06 296

转载 SparkSQL（上）--SparkSQL简介

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，

2017-09-29 16:52:17 264

转载 Hive（下）--Hive实战

1、Hive操作演示1.1 内部表1.1.1 创建表并加载数据第一步启动HDFS、YARN和Hive，启动完毕后创建Hive数据库hive>create database hive;hive>show databases;hive>use hive;第二步创建内部表由于Hive使用了类似SQL的语法，所以创建内部表的语句相对SQL只增加了行和字段分隔

2017-09-29 16:50:23 712

转载 Hive（上）--Hive介绍及部署

1、Hive介绍1.1 Hive介绍Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL语句作为数据访问接口，Hive有如下优缺点：l 优点：1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容，大大降低了传统数据分析人员学习的曲线；2.

2017-09-29 16:46:57 350

转载 Spark运行架构

Spark运行架构 1、 Spark运行架构1.1 术语定义lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码；lDriver：Spark中的Driver即运行上述Application的main

2017-09-29 16:45:26 277

转载 Spark编程模型（上）--编程模型及SparkShell实战

1、Spark编程模型1.1 术语定义l应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；l驱动程序（Driver Program）：运行Application的main()函数并且创建SparkContext，通常用SparkContext代表Driver Program；l执行单元（Execu

2017-09-29 16:38:12 253 1

转载 Spark编译与部署（下）--Spark编译安装

1、编译SparkSpark可以通过SBT和Maven两种方式进行编译，再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具，而Maven安装则需要maven工具，两种方式均需要在联网下进行，通过比较发现SBT编译速度较慢（原因有可能是1、时间不一样，SBT是白天编译，Maven是深夜进行的，获取依赖包速度不同 2、maven下载大文件是多线程进行，而SB

2017-09-29 16:32:13 299

转载 Spark编译与部署（中）--Hadoop编译安装

1、编译Hadooop1.1 搭建环境1.1.1 安装并设置maven1. 下载maven安装包，建议安装3.0以上版本，本次安装选择的是maven3.0.5的二进制包，下载地址如下http://mirror.bit.edu.cn/apache/maven/maven-3/2. 使用ssh工具把maven包上传到/home/hadoop/upload目录3. 解压缩

2017-09-29 16:28:00 272

转载 Spark编译与部署（上）--基础环境搭建

1、运行环境说明1.1 硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOS6.5 64位，单核，1G内存l 虚拟机运行环境：Ø JDK：1.7.0_55 64位Ø Hadoop：2.2.0（需要编译为

2017-09-29 16:15:51 261

转载 Spark及其生态圈简介

1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了Spark SQL、Spark

2017-09-29 16:03:15 819

青堂主的博客