[机器学习]决策树&随机森林 决策树&随机森林决策树相关概念划分标准信息增益(ID3)信息增益率(C4.5)基尼系数(CART)过拟合处理随机森林决策树是贪心算法: 求局部最优解既能做分类,也能做回归(CART)ID3和C4.5只能做分类, CART算法是可以做分类,也可以做回归.相关概念树信息熵:衡量系统中随机事件得不确定性得度量.信息熵越小, 不确定性越小非线性有监督离散型分类模型无假设...
迭代器vs可迭代对象,推导式vs生成器 迭代器vs可迭代对象,生成式vs生成器,推导式迭代器vs可迭代对推导式(生成式) vs 生成器附录迭代器vs可迭代对迭代器(类):凡是实现了__iter__,__next__的对象就是迭代器。可迭代对象:只实现了__iter__方法例子:手写迭代器,实现Range()函数class Range:def __init__(self, start, stop=None, st...
【数据分析day08】人类动作识别,癌症预测,预测年收入是否大于50K美元 练习:人类动作识别,癌症预测,预测年收入是否大于50K美元人类动作识癌症预测预测年收入是否大于50K美元人类动作识导入数据X_train = np.load('./动作分析/x_train.npy')X_test = np.load('./动作分析/x_test.npy')y_train = np.load('./动作分析/y_train.npy')y_test = np.load...
【数据分析day07】机器学习入门 & KNN(分类,回归) 机器学习入门 & KNN机器学习入门原理机器学习分类1. 有监督学习(知道结果)分类 (有限数据)回归 (无限数据)2. 无监督学习聚类3. 半监督学习(不用管)深度学习KNN 基础知识k-近邻算法原理适用数据范围:优缺点&改进KNN 用法之:分类例子一:电影分类例子二:性别分类例子三:(yuan)鸢尾花分类绘图机器学习入门原理定义:机器指的就是电脑。把“人工智能”问题...
【数据分析day06】matplotlib图片灰度的处理 图片灰度的处理最小值法最大值法平均值加权平均法图片的灰度化处理就是把彩色图片转化为黑白图片.操作第三维度(颜色维度)cmap=‘gray’ 灰度设置导包:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline导入一张图jin = plt.imread('....
【数据分析day05】滤镜 & scipy处理图片(含三种降噪:高斯滤波,中值滤波,维纳滤波) 滤镜 & scipy处理图片(含三种降噪:高斯滤波,中值滤波,维纳滤波)滤镜scipy处理图片移动坐标:ndimage.shift旋转图片:rotate缩放图片:zoom切割图片:切片过滤 (降噪)添加噪点:降噪(三种)高斯滤波中值滤波维纳滤波滤镜导包:from PIL import Image, ImageFilter读取图片cat = Image.open('../data...
【数据分析day05】ffmpeg操作 ffmpeg操作简介从视频中提取音频视频截取从视频中提取无声视频合并视频和音频扩展mp3数据mp4数据简介FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。流文件(可在线拉进度)ffmpeg需要下载,并解压将3个文件放至Python安装目录中的bin目录下,然后还要配置环境变量官网下载从视频中提取音频在终端下直接执行: “...
【数据分析day05】Scipy读/写.mat文件,wav,mp3 Scipy文件输入/输出,wav,mp3读写.mat 文件写入 .savemat()读取 .loadmat()wav读 wavfile.read()拼接 np.vstack()写 wavfile.write()MP3读: AudioSegment.from_mp3()转化为wav: wavfile.write()裁剪(就是按毫秒切片)导出 export()读取png文件命名为“moon”(...
【数据分析day05】积分求圆周率 积分就是求曲线下的面积导包: from scipy import integrateintegrate 对函数(1 - x2)0.5进行积分X2 + Y2 = 1,半径是1pi×r**2,只要求得面积—>pif = lambda x: (1 - x **2) ** 0.5首先画一个圆x = np.linspace(-1, 1, 1000)y = (1 - x **...
【数据分析day05】快速傅里叶变换之“登月降噪” 先分享一篇文章,讲解傅里叶相关知识点https://www.cnblogs.com/h2zZhou/p/8405717.htmlscipy.fftpack模块用来计算快速傅里叶变换速度比传统傅里叶变换更快,是对之前算法的改进图片是二维数据注意使用fftpack的二维转变方法登月图片降噪import numpy as npimport pandas as pdfrom pand...
【数据分析day05】pandas中的绘图函数 pandas中的绘图函数线形图1. series线性图2. dataframe线性图柱状图Series柱状图DataFrame柱状图直方图只需要一维数据, 自动计算频数.散布图 (散点图)看两个一维数据组成的一个关系数据pandas中的绘图函数实际上是调用的matplotlibplot()pip install scipy线形图反映趋势1. series线性图s = Seri...
【数据分析day04】数据加载(读/写) pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,期中read_csv和read_table这两个使用最多导包:import pandas as pdfrom pandas import Series,DataFrameimport numpy as np读取1. 使用read_csv读取pd.read_csv(’./data/SMSSpamCollecti...
【数据分析day04】pandas数据处理三:数据聚合&“高级”数据聚合 pandas数据处理三:数据聚合&高级数据聚合数据聚合高级数据聚合万能函数 apply()数据聚合数据聚合是数据处理的最后一步,通常是要使每一个数组生成一个单一的数值。数据分类处理:分组:先把数据分为几组聚合 , 求分组组内的数据聚合合并:把不同组得到的结果合并起来数据分类处理的核心: groupby()函数例子:统计出color的总price, 再合并到原表种...
【数据分析day04】pandas数据处理二:异常值检测和过滤&抽样 pandas数据处理二:异常值检测和过滤&抽样1. 异常值检测和过滤思路:1. 确定异常的检测标准.2. 写成条件的形式.使用条件去过滤原始数据2. 抽样无放回:permutation()有放回:1. 异常值检测和过滤使用describe()函数查看每一列的描述性统计量ddd.describe()上面的统计不包含字符串那两列思路:1. 确定异常的检测标准.2. ...
【数据分析day04】pandas数据处理一:删重&映射 pandas数据处理)1、删除重复行1) 检查2) 删重2. 映射1)replace()2) map()函数3) rename()函数1、删除重复行1) 检查使用 df.duplicated()df.duplicated()这里第二行跟第一行重复,所以第二行是True因为默认参数keep=“first”,从前往后判断,也可以改成“last”,从后往前判断df.duplicate...