自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

转载 图像识别过程(转)备忘录

图像识别过程分为图像处理和图像识别两个部分。 图像处理(imageProcessing)利用计算机对图像进行分析,以达到所需的结果。 图像处理可分为模拟图像处理和数字图像处理,而图像处理一般指数字图像处理。 这种处理大多数是依赖于软件实现的。 其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。1)图像采集 图像采集是...

2018-06-14 08:27:27 821

原创 virtualbox 虚机桥接无效设置错误

1.win10 部分版本选桥接 报无效设置错误,方案,换virtual版本 5.1.30    2.桥接网卡选择,看现在用什么网卡上网,WiFi就桥接无线网卡,网线上网就桥接有线网卡...

2018-04-10 11:36:38 1690

原创 virtualbox 虚机ping不通宿主机,剩下互ping ,虚机上外网,全通

1.查看所连网络类型,公网还是专网2.控制面板------》防火墙-----》入站规则-------》   公网或专网  文件和打印机共享(回显请求 - ICMPv4-In  允许 启用3.再ping 通...

2018-04-10 11:31:24 3144

原创 python之matplotlib 之pyplotAPI

功能描述acorr绘制自相关x。angle_spectrum绘制角度谱。annotatexy用文字标注点s。arrow向轴添加一个箭头。autoscale自动缩放轴视图到数据(切换)。axes向图中添加一个轴。axhline在轴上添加一条水平线。axhspan

2018-02-05 22:07:13 1609

翻译 mysql after delete database reclaim-mysql-disk-space

1)将所有数据库转储到一个SQL文本文件(称为SQLData.sql)2)删除所有数据库(mysql模式除外)3)关闭mysql4)将以下行添加到/etc/my.cnf[mysqld]innodb_file_per_tableinnodb_flush_method=O_DIRECTinnodb_log_file_size=1Ginnodb_buffer_pool

2018-02-04 23:18:52 324

原创 mysql错误

[Err] 3 - Error writing file 'C:\WINDOWS\TEMP\MY781E.tmp' (Errcode: 28)因读取数据太大,C盘没有缓存空间啦

2018-02-04 11:21:16 223

原创 安卓ios主流浏览器User-Agent汇总

user-Agent爬虫['Mozilla/5.0 (iPhone 84; CPU iPhone OS 10_3_3 like Mac OS X) AppleWebKit/603.3.8 (KHTML, like Gecko) Version/10.0 MQQBrowser/7.8.0 Mobile/14G60 Safari/8536.25 MttCustomUA/2 QBWebViewTyp

2018-01-25 01:18:17 16198 1

原创 hadoop异常之输入路径不存在

org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: hdfs://mycluster/pythontout        at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.singleThreadedList

2018-01-23 22:31:43 5365 1

翻译 pandas强大的Python数据分析工具

指数模块 |下一页 |熊猫0.22.0文档 »目录什么是新的安装贡献给大熊猫包概述10分钟到熊猫教程食谱数据结构简介基本的基本功能使用文本数据选项和设置索引和选择数据多索引/高级索引计算工具处理丢失的数据分组方式:split-apply-combine合并,连接和连接重塑和数据透视表时间序列/日期功能时间三角洲分类数据可视化造型IO工具(文本,CSV,HDF5,

2018-01-22 11:45:21 3768

原创 KNN核心原理

1.将一个已知实例当做一个点,将该实例的所有可观察属性当做该点的坐标A(a1,a2,a3,a4,a5),B,C,D.......2.将预测实例属性映射到坐标Z(z1,z2,z3,z4,z5)3.求预测坐标到每一个已知坐标的距离4.设置K(已知坐标的个数),一般要设置成奇数,因为下面要举手表决5.将3中的距离升序排列选K个,查看对应已知实例的目标,按少数服从多数决定预测目标

2018-01-21 18:00:02 536

原创 hadoop streaming包参数

Usage: $HADOOP_PREFIX/bin/hadoop jar hadoop-streaming.jar [options]Options:  -input          DFS input file(s) for the Map step.  -output          DFS output directory for the Reduce step.  -

2018-01-20 21:02:47 379

翻译 Python标准库--留给自己作查询

虽然“Python语言参考”描述了Python语言的确切语法和语义,但该库参考手册描述了使用Python分发的标准库。它还介绍了Python发行版中通常包含的一些可选组件。Python的标准库非常广泛,提供了下面列出的长表所示的各种设施。该库包含内置模块(用C语言编写),提供对Python程序员无法访问的系统功能(如文件I / O)的访问,以及使用Python编写的模块,为出现的许多问题提

2018-01-20 13:06:51 7422

原创 内置函数--备用

内置函数  abs()divmod()input()open()staticmethod()all()enumerate()int()ord()str()any()eval()isinstance()pow()sum()basestring()execfile()issu

2018-01-20 13:06:28 179

原创 【python异常记录】之IndentationError: unexpected indent

IndentationError: unexpected indentclose failed in file object destructor:sys.excepthook is missinglost sys.stderr由于在centos服务器手敲代码调试程序,在for循环的字句中出现缩进错误

2018-01-20 12:21:08 624

转载 聚类算法概述

聚类算法的种类:基于划分聚类算法(partition clustering)k-means:是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据k-modes:K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度k-protot

2018-01-16 10:54:20 688

转载 分类方法概述

单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。 (1)决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测

2018-01-16 10:48:53 5110

转载 降维方法概括

特征降维方法包括:Lasso,PCA,小波分析,LDA,奇异值分解SVD,拉普拉斯特征映射,SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap。1. LASSO通过参数缩减达到降维的目的。LASSO(Least absolute shrinkage and selection operator, Tibshirani(1996)) 该方法是一种压缩估计

2018-01-16 10:44:31 460

转载 MVC模式

MVC全名是Model View Controller,是模型(model)-视图(view)-控制器(controller)的缩写,一种软件设计典范,用一种业务逻辑、数据、界面显示分离的方法组织代码,将业务逻辑聚集到一个部件里面,在改进和个性化定制界面及用户交互的同时,不需要重新编写业务逻辑。MVC被独特的发展起来用于映射传统的输入、处理和输出功能在一个逻辑的图形化用户界面的结构中。  Mo

2018-01-16 06:07:13 140

转载 单利模式的优缺点和使用场景

首先介绍一下单例模式:     单例模式(Singleton),也叫单子模式,是一种常用的软件设计模式。在应用这个模式时,单例对象的类必须保证只有一个实例存在。许多时候整个系统只需要拥有一个的全局对象,这样有利于我们协调系统整体的行为。比如在某个服务器程序中,该服务器的配置信息存放在一个文件中,这些配置数据由一个单例对象统一读取,然后服务进程中的其他对象再通过这个单例对象获取这些配置信息。这种

2018-01-16 05:57:03 397

转载 网络爬虫基本原理

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程    一个通用的网络爬虫的框架如图所示:    网络爬虫的基本工作流程如下:    1.首先选取一部分精心挑选的种子URL;    2.将这些URL放入待

2018-01-16 05:47:25 19770

原创 数据变换----将数据转换或同一成适合于挖掘的形式

一光滑:去掉数据的噪声二聚集:对数据进行汇总或聚集三数据泛化:使用概念分层用高层概念替换底层或原始数据四规范化:将数据按比例缩放使之落入一个特定区间1.最小-最大规范化2.Z-score规范化(零均值规范化)3.小数定标规范化其中j是使得max(|v'|)五属性构造(特征构造):可以构造新的属性并添加到属性集当中。以帮助挖掘

2018-01-15 11:13:52 1235

原创 数据集成

数据挖掘需要数据集成---合并来自多个数据库的数据一.模式集成和对象匹配确定一个源的ID指的是另一个源的某字段(根据属性的元数据(字段名,含义,数据类型,属性的取值范围))二.属性冗余1.属性是连续数值计算相关系数(皮尔逊积矩系数)N是元组的个数,ai和bi 分别是元组i中A和B的值分别是A和B的均值分别是A和B的标准差是AB叉积的和2.属性是离散数据卡方值设 A有

2018-01-14 20:15:27 838

原创 数据清理--数据挖掘必须保证数据完整,一致

数据清理试图填充缺失的值,光滑噪声并识别离群点一. 缺失值  解决办法1.忽略元组(缺失较多属性)2.人工填写缺失值(费时)3.使用一个全局常量填充缺失值(方法简单,但并不可靠)4.使用属性的均值填充缺失值5.使用与给定元组属同一类的所有样本的属性均值6.使用最可能的值填充二.噪声(是被测量的变量的随机误差)光滑数据方法1.分箱(binning):通过考擦数据的

2018-01-14 20:11:59 584

原创 描述性数据汇总---提供数据总体行为,有助于识别噪声和离群点

一.度量数据的中心趋势(均值mean、中位数median、众数mode、中列数midrange)在完全对称的数据分布单峰曲线mean=media=mode1.均值mean对应于关系型数据库内部的聚集函数avg(),avg()=sum()/count()是一种代数度量sum()和count()是分布式度量(将数据划分成较小数据集后度量)加权平均2.中位数media(由

2018-01-14 10:54:15 1345

原创 KDD数据库知识发现流程

1.数据清理(消除噪声和不一致数据)2.数据集成(多种数据源组合在一起)3.数据选择(从数据库中提取与分析和任务相关的数据)4.数据变换(变换或同一成适合挖掘的形式)5.数据挖掘(用算法提取信息)6.模式评估(根据某种兴趣度度量,识别表示知识的真正有趣模式)7.知识表示(用可视化技术向用户展示)

2018-01-14 09:36:32 8228

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除