- 博客(66)
- 收藏
- 关注
原创 Markdonw语法
目录Markdown 语法简介**粗体***斜体*标题分割线^上^角~下~标++下划线++ ~~中划线~~==标记==段落引用列表任务列表链接代码段落表格(table)脚注(footnote)表情(emoji)$\KaTeX$公式布局定义abbrMarkdown 语法简介语法详解粗体**粗体**__粗体__斜体*斜体*_斜体_标题# 一级标题 #一级标题====## 二级标题 ##二级标题----### 三级标题 ####### 四级标题 ######### 五级
2022-05-10 09:51:11 186
原创 Tensorflow之一基础篇
《Tensorflow技术解析与实战》基础篇Tensorflow技术基础篇,本文章内容来源于《Tensorflow技术解析与实战》一书前四章内容整理一、Tensorflow环境准备Anaconda里安装Tensorflow; 依赖的其他模块有:numpy,matplotlib,jupyter scikit-image:有一组图像处理的算法,可以使过滤一张图片变得很简单,非常适用于对图像的预处理。
2017-11-27 23:16:04 632
原创 python数据分析与挖掘项目实战记录
python数据挖掘项目实战记录取自《Python数据分析与挖掘实战》一书,整理各个项目中用到的数据处理方法:数据预处理方法建立模型方法绘制图形对于分类问题:用模型分类;混淆矩阵及其绘图;观测其ROC曲线; 对于聚类问题:划分类目数;获取划分类目中心;平行坐标系描述 (一)数据预处理的方法在获取数据之后,会发现一些数据值错误 一、填补空值 二、观察数据分布 三、数据清洗,使数据值都合
2017-11-26 17:20:24 13850 2
原创 混淆矩阵以及ROC图像
一、混淆矩阵总结一下混淆矩阵,分类描述及其绘制;ROC曲线含义,及其绘制1、矩阵图示如下图就是CM混淆矩阵Confusion Matrix 左边栏是数据的真实的类别,右栏是预测出的类别。简介一下TP,TN,FP,FN含义。 TP 就是 Ture Positive :原来是+,判别为 + 简记为—->“判对为正” FP 就是 False Positive :原来是 -,判别为
2017-11-14 21:48:15 3088
原创 朴素贝叶斯分类
朴素贝叶斯分类原理数据挖掘课后总结一下朴素贝叶斯原理,时间久了差点儿忘,再次整理一下。 首先看要求: 已由上述数据,现给如下数据和要求 1. Class: C1:buys_computer = ‘yes’ C2:buys_computer = ‘no’ 2. Data to be classified: X = (age <=30, Income = medium,Student
2017-11-14 20:11:05 2397
原创 实战一、电力窃漏用户自动识别
实战一、电力窃漏用户自动识别取自《Python数据分析与挖掘实战》一书 学会绘制混淆矩阵图、ROC图、使用LM神经网络预测,决策树预测,拉格朗日插值法,下降趋势指标。一、数据抽取主要有用电负荷数据、终端报警数据、违约窃电处罚信息以及用户档案资料等。二、数据探索分析1、数据的分布分析查看用电类别切漏电情况,明确哪一些人群、领域窃漏电情况严重。2、周期性分析正常用电量周期性用量平稳,没有太大波动;窃漏
2017-11-14 13:09:04 1913
原创 数据可视化总结
数据可视化工具整理(一)、Python数据挖掘相关扩展库Numpy 提供数组支持,以及相应的高效的处理函数Scipy 提供矩阵支持,以及矩阵相关的数值计算模块Matplotlib 数据可视化工具,作图库Pandas 强大、灵活的数据分析和探索工具StatsModels 设计建模,统计模型估计,描述统计等Scikit-Learn 支持回归、分类、聚类等的
2017-11-12 15:30:09 7315
原创 数据预处理总结
数据挖掘概念与技术定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价 第一章、数据挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体数据,文本数据,图,社会网络和web数据; 挖掘:知识类型、使用的技术、目标应用的技术、挖掘任务分类。 衡量取样数据质量的标准:1. 资料完整无缺,各类指标项齐全 2. 数据准确无误,反应的都是正常状态下的水平 数据抽样操作1. 随
2017-11-12 15:24:50 29441 3
原创 LeetCode的Easy题目
LeetCode的Easy题目标签(空格分隔): 算法题,代码网上都有,就只贴一下github了。这里主要总结一下从题目中学到的,如何举一反三一、Two Sum好像很简单,上来就两个粗暴循环了。也想到时间复杂度是个问题,但是并没有想太多,看到discuss里的答案,才真正发现题目不难,想个好的方法是比较重要的。题目总结 类似的,输入输出的元素都是一个列表中的,重点考虑取出另存放,然后比较的操作,可以
2017-11-07 22:58:30 1062
原创 第九章 排序
第九章 排序标签(空格分隔): 数据结构一、排序的问题和定义对于同一集实际数据,完全可能存在很多种不同的但都有意义的序。排序算法内排序:在一个排序工作的执行过程中,待排序的记录全部保存在内存,这种工作就成为内排序; 外排序:针对外存(磁盘)数据的排序工作称为外排序。 排序工作要求数据集合存在一种可用的序。数据本身有自然的序,也可以给它造出一种序,最典型的方法就是设计一种hash函数,把数据集的元
2017-11-06 23:48:34 238
原创 第八章 字典和集合
第八章 字典和集合标签(空格分隔): 数据结构概述:python的数据结构中用list和链表实现字典,集合等,感觉意义不大,下面补充python内置字典和集合的常用操作一、字典 if __name__ == '__main__': myDict = {'name': 'yu', 'age': 24} myDict2 = dict([['name', 'yu'], ['age', 24
2017-11-06 09:47:53 340
原创 第六章 二叉树和树
第六章 二叉树和树标签(空格分隔): 数据结构承前启后:第一章绪论,介绍数据结构;第三章讲解了简单的线性表,主要是顺序表和链表。第四章讲了字符串的内容,主要是匹配。第五章在顺序表的基础上实现了栈和队列。 下面几章就不是简单的线性结构,而是更复杂的联系。 树形结构:树形结构也是由结点和结点之间的关系构成。其最主要的特征包括:一个结构不空,就存在唯一的起始节点。树根外的结点都只有一个前驱。一个结
2017-11-04 18:30:54 228
原创 第五章 栈和队列
第五章 栈和队列回顾:容器的概念。线性表就是第一种容器。本章介绍另外两类最常用的容器,分别为栈(stack)和队列(queue)一、概述:栈和队列主要用于计算机过程中存储临时数据。当临时数据项数不能完全确定时,必须采用更复杂的存储机制和管理—-缓冲存储或缓存。栈和队列就是使用最多的缓冲存储结构。栈、队列和数据使用顺序栈和队列只支持数据项的存储和访问,不支持数据项之间的任何关系。集合很小,简单。最重要
2017-11-01 10:52:12 368
原创 第四章 字符串
第四章 字符串一、字符集、字符串及其操作字符串及其操作字符串可以认为特殊的线性表,但操作不同于线性表,而是作为一个整体使用处理。python没有字符类型,所以返回的都是字符串对象。 1. 字符串的长度 2. 字符在字符串的位置 3. 字符串相等 4. 字典序 5. 字符串拼接 6. 字串关系 7. 前缀和后缀都是两种特殊子串 8. 其他有用的串运算二、字符串的实现py
2017-10-31 11:35:00 287
原创 第三章 线性表
第三章 线性表线性表,(简称表)就是一组元素序列的抽象。一个线性表是某类元素的一个集合,还记录着元素之间的一种顺序关系。python语言里的内置类型list和tuple都已具体的方式支持程序里的这类需要,他们都可以看作线性表的实现。一、线性表概念和表ADT1)从实现者角度,必须考虑①如何把该结构内部的数据组织好;②如何提供一套有用而且必要的操作,并有效实现这些操作。 2)从使用者角度,必须考虑该结
2017-10-25 10:45:44 325
原创 第二章 ADT和Python类
第二章 抽象数据类型和Python类 一、抽象数据类型 数据类型数据构造这里是说,基本的数据类型,如:int,bool,float,str等,处理较为复杂问题时不能满足需要。在这种情况下,python为数据的组合,提供了:list,tuple,set,dict等结构。 抽象数据类型的思想和支持这种思想的编程语言机制能帮助解决这些问题。 抽象数据类型的概念抽象数据类型的操作分三类:构造操作,解析操作
2017-10-24 20:19:31 3062
原创 数据结构java部分
第三章 表、栈和队列一、抽象数据类型 抽象数据类型:带有一组操作的一些对象的集合。诸如表、集合、图以及与它们各自的操作一起形成的这些对象都可以被看作是抽象数据类型。二、表ADT表的简单实现 ①元素Ai在表中的位置为i+1。简单起见,表中的元素是整数 ②数组扩大:arr=newArr;数组名复制 ③数组的操作插入位置0,平均来看,这两种操作都需要移走表中一半的元素。o(n);如果发生在末尾,那么添
2017-10-24 19:12:22 210
原创 第一章 绪论
计算给出例子:绳索计算机及其算法、尺规计算机机器算法绪论第一节:算法计算==信息处理:借助某种工具,遵照一定规则,以明确而机械的形式进行 所谓算法:即特定计算模型下,旨在解决特定问题的指令序列。 算法有穷性:序列的例子说明算法的有穷性。 好的算法的要求: ①简单输入,大规模输入,一般性输入,退化的输入,任意合法的输入 ②能辨别不合适的输入并做适当处理,不致非正常退出 ③可读性:结构化,命
2017-10-24 09:08:30 396
原创 Hadoop权威指南笔记③(HBase、ZooKeeper、Sqoop)
第十三章 HBaseHBase实现HBase:用一个master节点协调管理一个或多个regionserver从属机。HBase主控机负责启动一个全新的安装,把区域分配给注册的regionserver,恢复regionserver的故障。regionserver负责零个或多个区域的管理以及响应客户端的读写请求。regionserver还负责区域的划分并通知HBase maste有了新的子区域,主控机
2017-09-09 20:24:45 396
原创 Hadoop权威指南笔记②(Hive)
第十二章 Hive 一、示例①声明一个表,三列:year,temperature,quality create table records (year string, temperature int,quality int) row format delimited #HiveQL所特有,声明每一行是由制表符分隔的文本,按此格式读取数据 fields terminated by ‘\t’
2017-09-09 16:36:56 341
原创 Hadoop权威指南笔记①(HDFS,MR)
关于《Hadoop权威指南》第三版 读书笔记,仅限Hadoop;Hive,HBase,Zookeeper,Sqoop等稍后更新
2017-09-08 20:49:46 625
原创 总结命令行03:HBase
Hbase常用命令行示例:create table 'Test' , 'c1_info' , 'c2_info' , 'c3_info'put 'testAjl' , 'row_1' , 'c1_info:a' , 'value1'row keytime stampinfo列族1:nameinfo列族2 : passwordinfo列族3
2017-08-31 19:43:09 196
原创 总结:大数据几个重要框架的结构框图
一、Hadoop 二、HA集群模式主机名 IP 安装的软件 运行的进程host 192.168.33.129 jdk、hadoop NameNode、DFSZKFailoverController(zkfc)mini1 192.168.33.130 jdk、hadoop NameNode、DFSZKFailoverController(z
2017-08-30 16:51:16 1183
原创 总结命令行07:MySQL
一、MySQL常用语句:1mysql> alter table MyClass add passtest int(4) default '0'2 UPDATE [LOW_PRIORITY] [IGNORE] table_references SET col_name1=expr1 [, col_name2=expr2 ...] [WHERE where_de
2017-08-30 16:48:40 250
原创 总结命令行06:Spark
启动命令行:spark-shell启动spark:sbin/start-all.sh -> start-master.sh -> start-slaves.shspark提交任务的过程bin/spark-submit --class cn.itcast.spark.WordCount --master spark://server:7077 --executor-memory 2g
2017-08-30 16:47:20 335
原创 总结命令行05:Kafka
1、查看topic的详细信息./kafka-topics.sh -zookeeper server:2181-describe -topic testKJ12、为topic增加副本./kafka-reassign-partitions.sh -zookeeper server:2181-reassignment-json-file json/partitio
2017-08-30 16:46:26 201
原创 总结命令行04:Storm
1、提交命令:storm jar storm_starter.jar org.storm.test.WordCountTopology args0 args12、kill格式: storm kill topology-name [-w wait-time-secs]描述:显示杀死正在运行的topology示例:storm kill 20
2017-08-30 16:45:36 290
原创 总结命令行02:Hive
一、概述: Hive提供了很多的函数,可以在命令行下show functions罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过describe function functionName 查看函数使用方法。hive支持的数据类型很简单就INT(4 byte integer),BIGINT(8 byte integer),FLOAT(single
2017-08-30 16:43:52 187
原创 总结命令行01:Hadoop
启动与关闭命令start-all.shstop-all.sh启动Job:hadoop jar xxxx.jar.xxxx.class args0 args1-help功能:输出这个命令参数手册-ls功能:显示目录信息示例: hadoop fs -ls hdfs://hadoop-server01:9000/
2017-08-30 16:43:02 155
原创 复习总结09:Spark
一、关于Sparkspark-shell:启动/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \--master spark://node1.itcast.cn:7077 \ #指定Master的地址--executor-memory 2g \ #指定每个worker可用内存为2G
2017-08-30 16:38:03 380
原创 复习总结08:Scala基础
一、Scala编程语法1//1、定义一个方法2def method1(x: Int, y: Int): Int = {3 return x * y4 }5//该方法无输入参数,其实是有返回值,默认的自动匹配。6def description = name + " is " + age + " years old with " + prop.toBuffer 7//无输入参
2017-08-30 16:37:26 237
原创 复习总结07:Redis
一、Redis概述:Redis是一个开源,先进的key-value存储,并用于构建高性能,可扩展的应用程序的完美解决方案。Redis数据库完全在内存中,使用磁盘仅用于持久性。 相比许多键值数据存储,Redis拥有一套较为丰富的数据类型。Redis可以将数据复制到任意数量的从服务器。 Redis 优势 异常快速:Redis的速度非常快,
2017-08-30 16:36:19 194
原创 复习总结06:Kafka
一、Kafka概述核心组件:Topic:消息分类,接收到的消息按照Topic进行分类。Producer:发送消息。Consumer:接收消息。broker:每个Kafka实例。zookeeper:依赖集群保存meta信息集群模型二、Kafka常用命令1、创建topicbin/kafka-
2017-08-30 16:34:32 217
原创 复习总结05:Storm
一、流式计算概述:流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示。也是区别于离线计算的特点。代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(MySQL)。将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果二、Storm概述:实时处理大数据框架,具有低
2017-08-30 16:32:06 253
原创 复习总结04:HBase(含重要原理图!吐血整理HBase存储机制!)
一、HBase概述:HBase 实质是一个分布式存储系统,搭建大规模结构化存储集群。实现的目标是:存储并且处理大型的数据,规模可达到成千上万的行和列所组成的大型数据。①使用hdfs作文件存储系统②运用Hadoo pMapReduce运算框架③采用zookeeper作协同服务优势:①线性扩展:数据数量增多时,通过节点扩展支撑。②存储机制:数据存储在hdfs上,
2017-08-30 16:30:34 521
原创 复习总结03:辅助系统Azkaban/flume/sqoop
…………………………………………………………………………………………一、Flume…………………………………………………………………………………………………………一、Flume概述:分布式,高可靠,高可用海量日志采集、聚合和传输系统。通过对flume设置来实现采集需求。flume可以采集文件,socket数据包等各种形式源数据 输出到HDFS,Hbase,Hive,Kafka
2017-08-30 16:28:23 364
原创 复习总结02:Hive
复习Hive:主要是HSQL语句,MySQL数据库语句。Hive的数据都自动存储在HDFS上的Hive:1. 查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。2. 数据存储位置。Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存
2017-08-30 16:26:43 654
原创 复习总结01:Hadoop
一、关于设置hdfs①获取hdfs文件系统1Configuration configuration = new Configuration();2FileSystem fSystem = fSystem = FileSystem.get(new URI("hdfs://server:9000"), configuration, "hadoop");备注:抛出异常Ex
2017-08-30 16:25:49 332
原创 大数据各软件框架启动命令行
各个软件服务的启动命令:storm,Kafka,hive,hbase,azkaban,flume,spark,hadoop,sqoopA:Storm启动:先在每台机器上启动zookeeper:zkServer.sh start①server----->: nohup ./storm nimbus & 主节点启动nimbus
2017-08-30 16:22:14 272
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人