自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 机器学习基础 - 数据降维,数据的划分

数据降维减少特征数量特征选择定义从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值。原因冗余:部分特征的相关度高,容易消耗计算性能噪声:部分特征对预测结果有负影响过滤式VarianceThreshold过滤方差:方差为0或者很小,数据不具有代表性(1) 语法VarianceThreshold(threshold = 0.0)删除所有低方差特征Variance.fit_transform(X,y)返回值:训练集差异低于t

2021-08-18 11:51:28 269

原创 基础机器学习与特征工程,特征预处理

概述机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。(总结规律用来预测)用途替代重复劳动解决需要经验的专业问题数据集的组成数据以文件形式存储(.csv等)读取工具:pandas,numpy(释放GIL,多线程并行)可用数据集kaggleScikit-learn:数据量小,易学结构组成特征值+目标值(注:有些数据集没有目标值)![[ML数据集结构组成.png]]机器学习有重复值不需要去重,数据一样对学习结果没有影响特征工程定义数

2021-08-18 07:40:28 128

原创 基本数据结构-树

树与树算法树的概念模拟具有树状结构性质的数据集合二叉树的概念完全二叉树除了最后一层,其它各层的结点数都达到最大个数满二叉树除了叶结点外每一个结点都有左右子叶且叶子结点都处在最底层的二叉树。二叉树的性质(特性)性质1: 在二叉树的第i层上至多有2^(i-1)个结点(i>0)性质2: 深度为k的二叉树至多有2^k - 1个结点(k>0)性质3: 对于任意一棵二叉树,如果其叶结点数为N0,而度数为2的结点总数为N2,则N0=N2+1;性质4: 具有n个结点

2021-08-09 14:50:01 72

原创 归并排序,二分查找

归并排序原理分治法:先递归分解数组,再合并数组。基本思路是比较两个数组的最前面的数,谁小就先取谁,取了后相应的指针就往后移一位。然后再比较,直至一个数组为空,最后把另一个数组的剩余部分复制过来即可。实现稳定排序def merge_sort(alist): #拆分 if n <= 1: return alist n = len(alist) mid = n//2 #左边列表形成新的列表 left_li = merge_sort(alist[:mid]) #右边列

2021-08-08 16:07:19 98

原创 Pandas-数据的合并和分组聚合

字符串离散化思路:重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1import pandas as pd from matplotlib import pyplot as plt import numpy as np file_path = "/Users/Downloads/AI_Documents/14100_HM数据科学库课件/DataAnalysis-master/day05/code/IMDB-Movie-Data.csv" df = p

2021-08-08 12:59:43 184

原创 希尔排序,快速排序

希尔排序原理先分组,再插入排序实现def shell_sort(alist): n = len(alist) gap = n//2 while gap >= 1: # gap到0之前,插入算法执行的次数 for i in range(gap,n): #一个for循环将所有子序列都处理 i = j while i > 0: if alist[i] < alist[i-gap]: alist[i],alist[i-gap]=alist[i

2021-08-07 17:42:08 60

原创 基本数据结构-栈和队列,排序与搜索

栈定义后进先出(LIFO)的线性表,只有一端可以操作实现创建容器(空列表)class Stack(object): """栈""" def __init__(self): self._list = [] #建立为私有,不允许更改判断是否为空 def is_empty(self): return self.items == [] #也可以是return not self.__list 压栈 def pu

2021-08-06 21:21:11 72

原创 Pandas基础数据类型

常用数据类型Series一维,带标签数组创建Seriespd.Series([1,2,3,4,5,6])-------------------------0 11 22 33 44 55 6dtype: int64pd.Series([1, 2, 3, 4, 5, 6], index=list("ABCDEF")) #定义索引-------------------------A 1B 2C 3D 4

2021-08-05 17:11:56 161

原创 基本数据结构-双向链表,循环链表

双向链表定义每个节点有两个链接:一个指向前一个节点,当此节点为第一个节点时,指向空值;而另一个指向下一个节点,当此节点为最后一个节点时,指向空值。实现定义节点class Node(object): """双向链表节点""" def __init__(self, item): self.item = item self.next = None self.prev = None定义双向链表class DLinkList(Si

2021-07-30 11:26:50 65

原创 数值运算-numpy基本操作

生成数组生成正数直接生成t1 = np.array([1,2,3])range生成t2 = np.array(range(10))arange生成(numpy独有)使用方法类似ranget3 = np.arange(4,10,2)生成小数t7= np.array([random.random() for i in range(10)]) print(t7) print(t7.dtype) t8= np.round(t7,2) #取近似两位 print(t8)

2021-07-29 15:10:47 211

原创 机器学习应用数学基础-概率统计

全概率公式和贝叶斯定理全概率公式定理1.2(全概率公式)设事件A1,A2,…,An是试验E的一个完备事件组,且P(Ai)>0,(i=1,2,…,n),则对任意事件B,有:P(B)=∑i=1nP(Ai)P(B∣Ai)P(B)=\sum_{i=1}^n P(A_i)P(B|A_i)P(B)=i=1∑n​P(Ai​)P(B∣Ai​)事件A出现的概率*事件A出现的前提下B发生的概率贝叶斯公式知道结果,想要知道原因导致的可能性定理1.3(贝叶斯公式)事件A1,A2,…,An是试验E的

2021-07-26 18:02:49 496

原创 机器学习应用数学基础-线性代数

向量,矩阵,张量标量: x举例:点向量:(x1,x2,x3,...,xn)∈Rn(x_1,x_2,x_3,...,x_n)\in R^n(x1​,x2​,x3​,...,xn​)∈Rn举例:线(时间序列)或者n维空间里的一个方向矩阵(二维下标Ai,jA_{i,j}Ai,j​)举例:面(黑白照片的灰度像素点)张量Tensor(多维下标,Ai,j,k,l...A_{i,j,k,l...}Ai,j,k,l...​)举例:立体(魔方)或者 彩色照片(三维张量,三种RGB像素点的叠加)或者 视频(四

2021-07-23 10:20:12 264

原创 matplotlib-散点图,条形图,直方图

散点图y_3 =[11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23] y_10 = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,15,11,15,5,13,17,10,11,13,12,13,6] x_3 = range(1,32) x_10 = range(51,82) # 使图形不重叠

2021-07-22 11:00:27 60

原创 matplotlib-折线图

matplotlib折线图基本要点from matplotlib import pyplot as plt #导入pyplotx = range(2,26,2) y = [15,13,14,5,17,20,25,26,24,22,18,15] plt.plot(x,y) #传入x和y,通过plot绘制出折线图或:plt.plot(x,y_1) #绘制两个折线图plt.plot(x,y_2)plt.show() #在执行程序的时候展示图形更多操作设置图片大小(想要

2021-07-21 18:04:08 91

原创 机器学习应用数学基础-微分下

多元函数y=f(x1,x2,...,xn)y=f(x_1,x_2,...,x_n)y=f(x1​,x2​,...,xn​)n维空间下的两点距离:d=(x1−z1)2+(x2−z2)2+...+(xn−zn)2d=\sqrt{(x_1-z_1)^2+(x_2-z_2)^2+...+(x_n-z_n)^2}d=(x1​−z1​)2+(x2​−z2​)2+...+(xn​−zn​)2​极限:A=lim⁡x−>x0f(x)A=\lim_{x->x_0}f(x)A=limx−>x0​​f(x

2021-07-19 11:24:30 151

原创 机器学习应用数学基础-微分上

O(n)和 o(n)O(n)f(x)=O(g(x))f(x)=O(g(x))f(x)=O(g(x))order 阶,多项式阶数学表述:∃X0,M,f(x)≤Mg(x)\exists X_0,M,f(x)\leq Mg(x)∃X0​,M,f(x)≤Mg(x)举例:M=2,2x2=O(x2),x0任意M=2,2x^2=O(x^2),x_0任意M=2,2x2=O(x2),x0​任意o(n)数学表述:∀ε,∃X0,f(x)≤εg(x)\forall\varepsilon,\exists X_0,

2021-07-16 16:14:58 76

原创 基本数据结构-单向链表

单向链表每个节点包含两个域,一个信息域(元素域)和一个链接域。这个链接指向链表中的下一个节点,而最后一个节点的链接域则指向一个空值。实现举例引入a=10b=20a,b=b,a #交换变量的值本质:Python中a=10,并不是在内存a中存储10,而是在内存a中存储元素10的位置,并指向另一块已经存储元素10的区域;a,b=b,a 代表内存a和内存b改变指向,不改变元素存储的位置,从而达到交换的效果。推广:“=” 在Python中表示 “指向和链接”节点实现#创造单链表的结

2021-07-16 14:30:32 83

原创 基本数据结构-顺序表

顺序表一组相同性质的元素,按照顺序的方式排列;位置可以通过计算获得。分类存相同的数据类型,占用相同的内存空间,可以使用基本布局存不同的数据类型,占用不同的内存空间,可以元素外置,将地址存储在4个字节里顺序排列,但需要额外空间去存储元素。例如:list结构一个顺序表的完整信息包括两部分,一部分是表中的元素集合,另一部分是表头信息,包括元素存储区的容量和当前表中已有的元素个数。两种实现方式一体式结构:存储表信息的单元与元素存储区以连续的方式安排在一块存储区里,两部分数据的整体形成一

2021-07-15 09:53:41 117

原创 数据结构与算法基础知识

数据结构定义官方定义:数据元素不是孤立存在的,它们之间存在着某种关系,数据元素相互之间的关系称为结构(Structure)。简单来说:元素按照什么样的方式组织和保存起来,就叫做数据结构。例如:身份信息可以通过列表,元组,字典的方式存储。列表,元组,字典就是一些Python封装的高级数据结构。分类逻辑结构(研究对象的特性及其相互之间的关系):划分方法一:{(1)线性结构:只有一个直接前趋和一个直接后继。例如:线性表、栈、队列、串(2)非线性结构:一个结点可能有多个直接前趋和直接后继。

2021-07-14 15:35:43 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除