自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 数据预处理之数据清洗

数据预处理之数据清洗清洗重复数据重复数据分为记录重复和特征重复,记录重复是指出现多条数据相同的情况;特征重复是指对于同一张表格中的两列不同名数据,其对于整个数据分析产生的影响都是雷同的,这两列数据被称为特征重复数据。记录重复对于记录重复,我们有三种方法进行去重:import pandas as pddata=pd.read_csv('f:/data/detail.csv',index_...

2018-10-25 19:38:49 1988

原创 数据结构之栈与队列

栈栈(stack),有些地方称为堆栈,是一种容器,可存入数据元素、访问元素、删除元素,它的特点在于只能允许在容器的一端(称为栈顶端指标,英语:top)进行加入数据(英语:push)和输出数据(英语:pop)的运算。没有了位置概念,保证任何时候可以访问、删除的元素都是此前最后存入的那个元素,确定了一种默认的访问顺序。由于栈数据结构只允许在一端进行操作,因而按照后进先出(LIFO, Last In ...

2018-10-25 19:20:46 136

原创 手写体数字识别的两种方法

基于贝叶斯模型和KNN模型分别对手写体数字进行识别首先,我们准备了0~9的训练集和测试集,这些手写体全部经过像素转换,用0,1表示,有颜色的区域为0,没有颜色的区域为1。实现代码如下:...

2018-10-25 19:09:09 11892 1

原创 ONE源码剖析之Core包SimClock类

仿真模拟时间类定义仿真时间、仿真时钟初始化方法,初始该类获得一个时钟对象实体返回当前时间按照四舍五入,返回当前时间最接近的整数返回以给定的小数位数显示的仿真时间的字符串表示。参数:要显示的小数位数将时间提前n秒。参数:增加时间设置时钟的时间。将仿真时间重置为0...

2018-10-23 19:25:10 190

原创 使用Tensorflow构造LogisticRegression

使用Tensorflow构造LogisticRegressionimport numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltfrom tensorflow.examples.tutorials.mnist import input_data#加载mnist数据集,one_hot=True为0,1格式m...

2018-10-23 19:19:06 201

原创 使用Sklearn模块建立聚类、回归、分类模型并评价

数据预处理和降维首先来学习下加载数据集、划分数据集、数据预处理以及PCA降维# 加载数据集from sklearn.datasets import load_bostonboston = load_boston()boston_data = boston['data']boston_target = boston['target']boston_names = boston['fe...

2018-10-23 19:12:18 3987

原创 单向循环列表

单向循环列表定义操作操作实现测试结果如图定义单链表的一个变形是单向循环链表,链表中最后一个节点的next域不再为None,而是指向链表的头节点。操作is_empty() 判断链表是否为空length() 返回链表的长度travel() 遍历add(item) 在头部添加一个节点append(item) 在尾部添加一个节点insert(pos, item) 在指定位置pos添加...

2018-10-23 18:55:32 1886

原创 ONE源码剖析之Core包Settings类

Settings类 存储在设置文件中的模拟设置界面。 设置类应在使用前初始化 init(String)。 如果未初始化“设置”,则仅读取default_setting中的设置。 通常,在初始化之后,给定文件中的设置可以覆盖默认设置文件中定义的任何设置。 所有设置都是键值对。值可以是单个值或逗号分隔的值列表。 使用CSV值时,必须使用CSV方法(例如getCsvInts(String,int...

2018-10-22 18:47:48 331

原创 Apriori算法

定义:Apriori算法是一种用于关联规则挖掘(Association rule mining)的代表性算法,它同样位居十大数据挖掘算法之列。关联规则挖掘是数据挖掘中的一个非常重要的研究方向,也是一个由来已久的话题,它的主要任务就是设法发现事物之间的内在联系。支持度:A和B同时发生的概率置信度(A–>B):A发生的条件下,B发生的概率Apriori源码:# -*- cod...

2018-10-22 18:28:50 307

原创 拉格朗日插值法实现

拉格朗日插值法定义:拉格朗日插值(Lagrange interpolation)是一种多项式插值方法,指插值条件中不出现被插函数导数值,过n+1个样点,满足如下图的插值条件的多项式。也叫做拉格朗日公式。一般用于处理数据中的异常值和空值。实现代码:定义:拉格朗日插值(Lagrange interpolation)是一种多项式插值方法,指插值条件中不出现被插函数导数值,过n+1个样点,满足如下图的插...

2018-10-22 18:13:06 1384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除