自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 重拾机器学习4 apriori

import osimport pandas as pdimport sys# data_folder = os.path.join(os.path.expanduser('~'), 'Data', 'ml-100k') os.path.expanduser(path) #把path中包含的"~"和"~user"转换成用户目录dir_path = 'D:\\study\\python...

2019-10-17 21:50:41 172

原创 重拾机器学习3 随机森林及网格搜索

import pandas as pdfrom collections import defaultdictfrom sklearn.model_selection import cross_val_score, train_test_splitfrom sklearn.tree import DecisionTreeClassifierimport numpy as npfrom s...

2019-10-15 20:39:30 665

原创 重拾机器学习2 决策树

# coding=utf-8import pandas as pdfrom collections import defaultdictfrom sklearn.model_selection import cross_val_score, train_test_splitfrom sklearn.tree import DecisionTreeClassifierimport num...

2019-10-15 16:54:48 256

原创 重拾机器学习1 KNN

import csvimport osimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import cross_val_scorefro...

2019-10-11 22:19:59 150

原创 数据结构与算法 3 链表

目录链表为什么需要链表链表的定义单向链表单向链表常用操作链表与顺序表的对比链表为什么需要链表顺序表的构建需要预先知道数据大小来申请连续的存储空间,而在进行扩充时又需要进行数据的搬迁,所以使用起来并不是很灵活。链表结构可以充分利用计算机内存空间,实现灵活的内存动态管理。链表的定义链表(Linked list)是一种常见的基础数据结构,是一种线性表...

2019-09-23 15:05:16 92

原创 数据结构与算法 2 线性表

目录2.1 顺序表的形式2.2 顺序表的结构与实现顺序表的两种基本实现方式元素存储区替换元素存储区扩充2.3顺序表的操作2.4 python中的顺序表list的基本实现技术2.1 顺序表的形式在程序中,经常需要将一组(通常是同为某个类型的)数据元素作为整体管理和使用,需要创建这种元素组,用变量记录它们,传进传出函数等。一组数据中包含的元素个数可能发生...

2019-09-18 16:37:39 304

原创 数据结构与算法 1 引入概念

引入1.1 第一次尝试先来看一道题:a+b+c = 1000,且a^2+b^2=c^2(a,b,c为自然数),如何求所有a,b,c的可能的组合?解法1:枚举法,先取a=0,b=0,c=0~1000import time #时间模块start_time = time.time()for a in range(0, 1001): for b in range(0,...

2019-09-16 16:45:12 113 1

原创 python小知识

1.range() 函数用法:range(start,stop,[,step])start:一般从0开始stop:结束为止,到stop结束,但注意不包括stop2. 列表生成式用法举例:listx = [i for i in range(0,100)]3. 链表添加元素完成如图的操作,让head和100之间加入新的元素node.next = headhe...

2019-09-16 09:51:17 113

原创 leetcode1:两数相加

给出两个非空的链表用来表示两个非负的整数。其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。示例:输入:(2 -> 4 -> 3) + (5 -> 6 -> 4)输出:7 -> 0 -> 8原因:342 + 465 = 807时间和空间复杂度都挺高的,...

2019-08-29 09:21:08 80

原创 异常值分析

异常值分析简单统计量分析3σ原则箱型图分析箱型图分析代码简单统计量分析可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。如客户年龄的最大值为199岁,则该变量的取值存在异常。3σ原则如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。在正态分布的假设下,距离平均值...

2019-06-26 16:08:33 1028

原创 pycharm使用笔记

pycharm多行注释快捷键:Crtl+/ 再次可取消注释

2019-06-26 15:44:37 117

原创 Hands-On Machine Learning with Scikit-Learn and TensorFlow第二章 (1)

第二章:端到端的机器学习project作为一个组织能力强的你,首先第一件事就是拿出你的机器学习项目检查清单:勾勒出问题的框架(什么问题,怎么解决,性能衡量指标)得到数据发现数据准备数据对比每个模型的好坏微调你的模型,奖他们组成一个很好的解决方案展示你的解决方案启动,监视和维护你的系统让我们以加利福利亚房价预测开始吧(数据集可在github下载)简单看下数据集组成import pandas as p...

2018-05-28 21:19:50 670

转载 Adaboost算法原理分析和实例(简明易懂)

Adaboost算法原理分析和实例(简明易懂)   【尊重原创,转载请注明出处】 http://blog.csdn.net/guyuealian/article/details/70995333    本人最初了解AdaBoost算法着实是花了几天时间,才明白他的基本原理。也许是自己能力有限吧,很多资料也是看得懵懵懂懂。网上找了一下关于Adaboost算法原理分析,大都是你复制我,我摘抄你,反正我...

2018-05-22 20:43:00 5432 1

原创 python学习笔记(2):pandas库series

如无必要,本篇笔记均在已导入pandas库下进行,即在程序第一行加入:import pandas as pd1.声明series对象data = pd.Series([12,-4,7,9],index=['a','b','c','d'])输出0 121 -42 73 9dtype: int642.制定index...

2018-05-20 15:15:38 250

原创 MWMOTE:带多数类权重的少数类样本过采样

比较新的论文引用较少,网上具体的算法介绍就更少,这里我就当为自己做了一些烂笔头的工作。有什么错误的地方恳请指正MWMOTE全称—Majority Weighted MinorityOversampling Technique for ImbalancedData Set Learning这篇论文是一篇IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERI...

2018-05-11 16:22:07 4738 3

原创 python学习笔记(1):numpy库数组数据文件的读写

一.二进制文件的读写Numpy的save()方法以二进制格式保存数据,load()方法则从二进制文件中读取数据生成data数据集保存并读取:import numpy as npdata = np.random.random((5,5))#随机生成5行5列数据print(data)np.save('save_data',data)loaded_data = np.load('save_dat...

2018-05-10 20:49:31 1213

原创 python学习笔记(1):numpy库索引切片 形状变化

一.索引机制、切片和迭代方法索引 、切片操作类似于MATLAB,但是python的索引从0开始以下各编程均在已导入numpy库下进行1.索引a = np.arange(2,10)a[0]输出 22.索引a = np.arange(1,12,2).reshape(2,3)a[0,0]输出 13.切片,即提取某几行几列a = np.arange(1,12,2).reshape(2,3)a[0,0...

2018-05-07 21:34:01 403 1

原创 python学习笔记(1):numpy库创建数组及算术运算 导入数据

以下代码均在import numpy as np 即导入numpy库下编写。一.创建数组1.定义数组ndarraya = np.array([[1,2,3],[1,2,3]]) #注意这里有两个[],一个是大型[]包括每一行子集在里面,一行里的[]也可以换成(),但是最外面的[]绝对要保留,若数组只有一行,写一行也就可以了输出[[1 2 3] [1 2 3]]2.输...

2018-05-07 20:20:55 2596

原创 ADASYN: 自适应综合过采样

 1. 引言      不平衡数据一直是数据挖掘领域最具挑战的几个问题之一。由于多数类的样本在总样本占据的比重太多,少数类样本被忽视,训练出来的分类器更偏向于多数类导致分类器的性能下降。在实际生活中更是有着举足轻重的影响,比如电路电压急速上升,没有发生危险的情况报警没有什么影响,如果发生了危险还没有报警的话危害极大。2.研究现状   Synthetic Minority Oversampling ...

2018-05-07 16:25:27 27104 4

原创 Safe-Level-SMOTE:安全级别过采样

  最近在看过采样的方法时看到Safe-Level-SMOTE这篇论文,论文全称为《Safe-Level-SMOTE Safe-Level-Synthetic Minority Over-Sampling TEchnique for Handling the Class Imbalanced Problem》看到网上对这种算法介绍的博客比较少,特此留篇见解。有什么理解错误的地方恳请指正。这篇论文给...

2018-04-26 19:42:38 3185 13

基于Dijkstra算法的最短路径实现与应用

Dijkstra算法是用于计算一个节点到其余所有节点最短路径的单源路径算法。我们先阐述Dijkstra算法的原理,在算法设计中,分别用邻接矩阵和邻接表存储带权有向图,并编写C++语言实现Dijkstra算法最短路径,用户只需输入要处理的有向图中包含段的个数和弧头与弧尾的顶点以及该弧上所附带的权值,程序即可自动求出顶点之间最短路径。在此基础上讨论该算法在实际生活中的应用。

2017-09-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除