自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Tensorflow之一基础篇

《Tensorflow技术解析与实战》基础篇Tensorflow技术基础篇,本文章内容来源于《Tensorflow技术解析与实战》一书前四章内容整理一、Tensorflow环境准备Anaconda里安装Tensorflow; 依赖的其他模块有:numpy,matplotlib,jupyter scikit-image:有一组图像处理的算法,可以使过滤一张图片变得很简单,非常适用于对图像的预处理。

2017-11-27 23:16:04 433

原创 python数据分析与挖掘项目实战记录

python数据挖掘项目实战记录取自《Python数据分析与挖掘实战》一书,整理各个项目中用到的数据处理方法:数据预处理方法建立模型方法绘制图形对于分类问题:用模型分类;混淆矩阵及其绘图;观测其ROC曲线; 对于聚类问题:划分类目数;获取划分类目中心;平行坐标系描述 (一)数据预处理的方法在获取数据之后,会发现一些数据值错误 一、填补空值 二、观察数据分布 三、数据清洗,使数据值都合

2017-11-26 17:20:24 12276 2

原创 混淆矩阵以及ROC图像

一、混淆矩阵总结一下混淆矩阵,分类描述及其绘制;ROC曲线含义,及其绘制1、矩阵图示如下图就是CM混淆矩阵Confusion Matrix 左边栏是数据的真实的类别,右栏是预测出的类别。简介一下TP,TN,FP,FN含义。 TP 就是 Ture Positive :原来是+,判别为 + 简记为—->“判对为正” FP 就是 False Positive :原来是 -,判别为

2017-11-14 21:48:15 1772

原创 朴素贝叶斯分类

朴素贝叶斯分类原理数据挖掘课后总结一下朴素贝叶斯原理,时间久了差点儿忘,再次整理一下。 首先看要求: 已由上述数据,现给如下数据和要求 1. Class: C1:buys_computer = ‘yes’ C2:buys_computer = ‘no’ 2. Data to be classified: X = (age <=30, Income = medium,Student

2017-11-14 20:11:05 363

原创 实战一、电力窃漏用户自动识别

实战一、电力窃漏用户自动识别取自《Python数据分析与挖掘实战》一书 学会绘制混淆矩阵图、ROC图、使用LM神经网络预测,决策树预测,拉格朗日插值法,下降趋势指标。一、数据抽取主要有用电负荷数据、终端报警数据、违约窃电处罚信息以及用户档案资料等。二、数据探索分析1、数据的分布分析查看用电类别切漏电情况,明确哪一些人群、领域窃漏电情况严重。2、周期性分析正常用电量周期性用量平稳,没有太大波动;窃漏

2017-11-14 13:09:04 1222

原创 数据可视化总结

数据可视化工具整理(一)、Python数据挖掘相关扩展库Numpy 提供数组支持,以及相应的高效的处理函数Scipy 提供矩阵支持,以及矩阵相关的数值计算模块Matplotlib 数据可视化工具,作图库Pandas 强大、灵活的数据分析和探索工具StatsModels 设计建模,统计模型估计,描述统计等Scikit-Learn 支持回归、分类、聚类等的

2017-11-12 15:30:09 2546

原创 数据预处理总结

数据挖掘概念与技术定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价 第一章、数据挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体数据,文本数据,图,社会网络和web数据; 挖掘:知识类型、使用的技术、目标应用的技术、挖掘任务分类。 衡量取样数据质量的标准:1. 资料完整无缺,各类指标项齐全 2. 数据准确无误,反应的都是正常状态下的水平 数据抽样操作1. 随

2017-11-12 15:24:50 26998 3

原创 LeetCode的Easy题目

LeetCode的Easy题目标签(空格分隔): 算法题,代码网上都有,就只贴一下github了。这里主要总结一下从题目中学到的,如何举一反三一、Two Sum好像很简单,上来就两个粗暴循环了。也想到时间复杂度是个问题,但是并没有想太多,看到discuss里的答案,才真正发现题目不难,想个好的方法是比较重要的。题目总结 类似的,输入输出的元素都是一个列表中的,重点考虑取出另存放,然后比较的操作,可以

2017-11-07 22:58:30 794

原创 第九章 排序

第九章 排序标签(空格分隔): 数据结构一、排序的问题和定义对于同一集实际数据,完全可能存在很多种不同的但都有意义的序。排序算法内排序:在一个排序工作的执行过程中,待排序的记录全部保存在内存,这种工作就成为内排序; 外排序:针对外存(磁盘)数据的排序工作称为外排序。 排序工作要求数据集合存在一种可用的序。数据本身有自然的序,也可以给它造出一种序,最典型的方法就是设计一种hash函数,把数据集的元

2017-11-06 23:48:34 164

原创 第八章 字典和集合

第八章 字典和集合标签(空格分隔): 数据结构概述:python的数据结构中用list和链表实现字典,集合等,感觉意义不大,下面补充python内置字典和集合的常用操作一、字典 if __name__ == '__main__': myDict = {'name': 'yu', 'age': 24} myDict2 = dict([['name', 'yu'], ['age', 24

2017-11-06 09:47:53 224

原创 第六章 二叉树和树

第六章 二叉树和树标签(空格分隔): 数据结构承前启后:第一章绪论,介绍数据结构;第三章讲解了简单的线性表,主要是顺序表和链表。第四章讲了字符串的内容,主要是匹配。第五章在顺序表的基础上实现了栈和队列。 下面几章就不是简单的线性结构,而是更复杂的联系。 树形结构:树形结构也是由结点和结点之间的关系构成。其最主要的特征包括:一个结构不空,就存在唯一的起始节点。树根外的结点都只有一个前驱。一个结

2017-11-04 18:30:54 145

原创 第五章 栈和队列

第五章 栈和队列回顾:容器的概念。线性表就是第一种容器。本章介绍另外两类最常用的容器,分别为栈(stack)和队列(queue)一、概述:栈和队列主要用于计算机过程中存储临时数据。当临时数据项数不能完全确定时,必须采用更复杂的存储机制和管理—-缓冲存储或缓存。栈和队列就是使用最多的缓冲存储结构。栈、队列和数据使用顺序栈和队列只支持数据项的存储和访问,不支持数据项之间的任何关系。集合很小,简单。最重要

2017-11-01 10:52:12 218

原创 第四章 字符串

第四章 字符串一、字符集、字符串及其操作字符串及其操作字符串可以认为特殊的线性表,但操作不同于线性表,而是作为一个整体使用处理。python没有字符类型,所以返回的都是字符串对象。 1. 字符串的长度 2. 字符在字符串的位置 3. 字符串相等 4. 字典序 5. 字符串拼接 6. 字串关系 7. 前缀和后缀都是两种特殊子串 8. 其他有用的串运算二、字符串的实现py

2017-10-31 11:35:00 184

原创 第三章 线性表

第三章 线性表线性表,(简称表)就是一组元素序列的抽象。一个线性表是某类元素的一个集合,还记录着元素之间的一种顺序关系。python语言里的内置类型list和tuple都已具体的方式支持程序里的这类需要,他们都可以看作线性表的实现。一、线性表概念和表ADT1)从实现者角度,必须考虑①如何把该结构内部的数据组织好;②如何提供一套有用而且必要的操作,并有效实现这些操作。 2)从使用者角度,必须考虑该结

2017-10-25 10:45:44 176

原创 第二章 ADT和Python类

第二章 抽象数据类型和Python类 一、抽象数据类型 数据类型数据构造这里是说,基本的数据类型,如:int,bool,float,str等,处理较为复杂问题时不能满足需要。在这种情况下,python为数据的组合,提供了:list,tuple,set,dict等结构。 抽象数据类型的思想和支持这种思想的编程语言机制能帮助解决这些问题。 抽象数据类型的概念抽象数据类型的操作分三类:构造操作,解析操作

2017-10-24 20:19:31 1040

原创 数据结构java部分

第三章 表、栈和队列一、抽象数据类型 抽象数据类型:带有一组操作的一些对象的集合。诸如表、集合、图以及与它们各自的操作一起形成的这些对象都可以被看作是抽象数据类型。二、表ADT表的简单实现 ①元素Ai在表中的位置为i+1。简单起见,表中的元素是整数 ②数组扩大:arr=newArr;数组名复制 ③数组的操作插入位置0,平均来看,这两种操作都需要移走表中一半的元素。o(n);如果发生在末尾,那么添

2017-10-24 19:12:22 134

原创 第一章 绪论

计算给出例子:绳索计算机及其算法、尺规计算机机器算法绪论第一节:算法计算==信息处理:借助某种工具,遵照一定规则,以明确而机械的形式进行 所谓算法:即特定计算模型下,旨在解决特定问题的指令序列。 算法有穷性:序列的例子说明算法的有穷性。 好的算法的要求: ①简单输入,大规模输入,一般性输入,退化的输入,任意合法的输入 ②能辨别不合适的输入并做适当处理,不致非正常退出 ③可读性:结构化,命

2017-10-24 09:08:30 243

原创 Hadoop权威指南笔记③(HBase、ZooKeeper、Sqoop)

第十三章 HBaseHBase实现HBase:用一个master节点协调管理一个或多个regionserver从属机。HBase主控机负责启动一个全新的安装,把区域分配给注册的regionserver,恢复regionserver的故障。regionserver负责零个或多个区域的管理以及响应客户端的读写请求。regionserver还负责区域的划分并通知HBase maste有了新的子区域,主控机

2017-09-09 20:24:45 265

原创 Hadoop权威指南笔记②(Hive)

第十二章 Hive 一、示例①声明一个表,三列:year,temperature,quality create table records (year string, temperature int,quality int) row format delimited   #HiveQL所特有,声明每一行是由制表符分隔的文本,按此格式读取数据 fields terminated by ‘\t’

2017-09-09 16:36:56 259

原创 Hadoop权威指南笔记①(HDFS,MR)

关于《Hadoop权威指南》第三版 读书笔记,仅限Hadoop;Hive,HBase,Zookeeper,Sqoop等稍后更新

2017-09-08 20:49:46 347

原创 总结命令行03:HBase

Hbase常用命令行示例:create table 'Test' , 'c1_info' , 'c2_info' , 'c3_info'put 'testAjl' , 'row_1' , 'c1_info:a' , 'value1'row keytime stampinfo列族1:nameinfo列族2 : passwordinfo列族3

2017-08-31 19:43:09 128

原创 总结:大数据几个重要框架的结构框图

一、Hadoop 二、HA集群模式主机名 IP 安装的软件 运行的进程host   192.168.33.129   jdk、hadoop  NameNode、DFSZKFailoverController(zkfc)mini1 192.168.33.130   jdk、hadoop  NameNode、DFSZKFailoverController(z

2017-08-30 16:51:16 802

原创 总结命令行07:MySQL

一、MySQL常用语句:1mysql> alter table MyClass add passtest int(4) default '0'2   UPDATE [LOW_PRIORITY] [IGNORE] table_references SET col_name1=expr1 [, col_name2=expr2 ...] [WHERE where_de

2017-08-30 16:48:40 170

原创 总结命令行06:Spark

启动命令行:spark-shell启动spark:sbin/start-all.sh -> start-master.sh -> start-slaves.shspark提交任务的过程bin/spark-submit --class cn.itcast.spark.WordCount --master spark://server:7077 --executor-memory 2g

2017-08-30 16:47:20 178

原创 总结命令行05:Kafka

1、查看topic的详细信息./kafka-topics.sh -zookeeper server:2181-describe -topic testKJ12、为topic增加副本./kafka-reassign-partitions.sh -zookeeper server:2181-reassignment-json-file json/partitio

2017-08-30 16:46:26 121

原创 总结命令行04:Storm

1、提交命令:storm jar storm_starter.jar  org.storm.test.WordCountTopology args0 args12、kill格式: storm kill topology-name [-w wait-time-secs]描述:显示杀死正在运行的topology示例:storm kill 20

2017-08-30 16:45:36 201

原创 总结命令行02:Hive

一、概述:       Hive提供了很多的函数,可以在命令行下show functions罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过describe function functionName 查看函数使用方法。hive支持的数据类型很简单就INT(4 byte integer),BIGINT(8 byte integer),FLOAT(single

2017-08-30 16:43:52 109

原创 总结命令行01:Hadoop

启动与关闭命令start-all.shstop-all.sh启动Job:hadoop jar xxxx.jar.xxxx.class  args0 args1-help功能:输出这个命令参数手册-ls功能:显示目录信息示例: hadoop fs -ls hdfs://hadoop-server01:9000/

2017-08-30 16:43:02 105

原创 总结:课程构图

一、Hadoop课程构图二、Hive课程构图三、辅助系统构图四、Hbase构图五、Storm构图:六、Kafka构图

2017-08-30 16:40:01 176

原创 复习总结09:Spark

一、关于Sparkspark-shell:启动/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \--master spark://node1.itcast.cn:7077 \            #指定Master的地址--executor-memory 2g \    #指定每个worker可用内存为2G

2017-08-30 16:38:03 236

原创 复习总结08:Scala基础

一、Scala编程语法1//1、定义一个方法2def method1(x: Int, y: Int): Int = {3    return x * y4 }5//该方法无输入参数,其实是有返回值,默认的自动匹配。6def description = name + " is " + age + " years old with " + prop.toBuffer  7//无输入参

2017-08-30 16:37:26 127

原创 复习总结07:Redis

一、Redis概述:Redis是一个开源,先进的key-value存储,并用于构建高性能,可扩展的应用程序的完美解决方案。Redis数据库完全在内存中,使用磁盘仅用于持久性。 相比许多键值数据存储,Redis拥有一套较为丰富的数据类型。Redis可以将数据复制到任意数量的从服务器。 Redis 优势 异常快速:Redis的速度非常快,

2017-08-30 16:36:19 114

原创 复习总结06:Kafka

一、Kafka概述核心组件:Topic:消息分类,接收到的消息按照Topic进行分类。Producer:发送消息。Consumer:接收消息。broker:每个Kafka实例。zookeeper:依赖集群保存meta信息集群模型二、Kafka常用命令1、创建topicbin/kafka-

2017-08-30 16:34:32 137

原创 复习总结05:Storm

一、流式计算概述:流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示。也是区别于离线计算的特点。代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(MySQL)。将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果二、Storm概述:实时处理大数据框架,具有低

2017-08-30 16:32:06 142

原创 复习总结04:HBase(含重要原理图!吐血整理HBase存储机制!)

一、HBase概述:HBase 实质是一个分布式存储系统,搭建大规模结构化存储集群。实现的目标是:存储并且处理大型的数据,规模可达到成千上万的行和列所组成的大型数据。①使用hdfs作文件存储系统②运用Hadoo pMapReduce运算框架③采用zookeeper作协同服务优势:①线性扩展:数据数量增多时,通过节点扩展支撑。②存储机制:数据存储在hdfs上,

2017-08-30 16:30:34 306

原创 复习总结03:辅助系统Azkaban/flume/sqoop

…………………………………………………………………………………………一、Flume…………………………………………………………………………………………………………一、Flume概述:分布式,高可靠,高可用海量日志采集、聚合和传输系统。通过对flume设置来实现采集需求。flume可以采集文件,socket数据包等各种形式源数据  输出到HDFS,Hbase,Hive,Kafka

2017-08-30 16:28:23 226

原创 复习总结02:Hive

复习Hive:主要是HSQL语句,MySQL数据库语句。Hive的数据都自动存储在HDFS上的Hive:1. 查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。2. 数据存储位置。Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存

2017-08-30 16:26:43 556

原创 复习总结01:Hadoop

一、关于设置hdfs①获取hdfs文件系统1Configuration configuration = new Configuration();2FileSystem fSystem = fSystem = FileSystem.get(new URI("hdfs://server:9000"), configuration, "hadoop");备注:抛出异常Ex

2017-08-30 16:25:49 232

原创 大数据各软件框架启动命令行

各个软件服务的启动命令:storm,Kafka,hive,hbase,azkaban,flume,spark,hadoop,sqoopA:Storm启动:先在每台机器上启动zookeeper:zkServer.sh start①server----->:  nohup ./storm nimbus &                  主节点启动nimbus

2017-08-30 16:22:14 157

原创 D37 python基础

python-2.7.13 print ----区别: python3以上的print()一、python基础语法测试:数据类型,list,tuple,dict,set1# coding=utf-823#-----A-----简单数据类型测试4count = 35

2017-08-30 16:18:38 109

提示
确定要删除当前文章?
取消 删除