机器学习
通过学习Python数据分析和机器学习实战记录笔记
咖豆丘
这个作者很懒,什么都没留下…
展开
-
one-hot 独热编码
为什么要对数据进行独热编码?对数据进行独热编码是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到原点是等距的。将离散型特征使用one-hot编码,确实会让特征之间的距离计算更加合理。比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值。不使用one-hot编码,其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是,(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1原创 2020-07-22 10:21:28 · 176 阅读 · 0 评论 -
Day8-1 案例信用卡的欺诈检测
使用pandasmatplotlib numpy进行数据分析和建模import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport ospath='E:\唐宇迪数据集'+os.sep+'creditcard.csv'data=pd.read_csv(path)print(data.head())上面v1--v28是已经提取好的特征time代表交易时间0属于正常 1属于异常 二分类 ...原创 2020-07-10 11:48:12 · 321 阅读 · 0 评论 -
逻辑回归损失函数为什么使用最大似然估计而不用最小二乘法
最小二乘法的误差符合正态分布,而逻辑回归的误差符合的是二项分布,所以不能用最小二乘法来作为损失函数,那么能够用最大似然预计来做。从求最优解的角度来解释:如果用最小二乘法,目标函数就是,是非凸的,不容易求解,会得到局部最优。如果用最大似然估计,目标函数就是对数似然函数:,是关于的高阶连续可导凸函数,可以方便通过一些凸优化算法求解,比如梯度下降法、牛顿法等。最小二乘作为损失函数的函数曲线:图1 最小二乘作为逻辑回归模型的损失函数,theta为待优化参数以及最大似然作为损...转载 2020-06-30 10:35:27 · 430 阅读 · 0 评论 -
Day07-1 实现逻辑回归
建立一个逻辑回归模型预测一个大学生是否会被大学录取假设你是一个大学系的管理员,你想根据两次的考试结果来决定每个申请人的录取机会。你有以前的申请人的历史数据,可以作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport ospath='E:\唐宇迪数据集'原创 2020-06-29 12:10:11 · 181 阅读 · 0 评论 -
Day06-1 逻辑回归 Logistic regression
虽然叫做回归但是不是进行预测值 而是进行二分类逻辑回归的决策边界:可以是非线性的i表示是第几个样本j表示第几个特征原创 2020-06-28 17:23:18 · 113 阅读 · 0 评论 -
Day05-1 线性回归
线性回归回归:通过一些特征最后预测出来值分类是最后的出类别值 借/不借θ1与θ2是权重对预测值影响较大θ0偏置项影响小高斯分布(正态分布)均值为0 大部分数值在-1和1之间似然函数:根据样本进行估计...原创 2020-06-26 11:35:10 · 163 阅读 · 0 评论 -
Day04-1画图 Seaborn
seaborn封装了mayplotlib 可以更方便的进行绘图未完待续原创 2020-06-21 11:40:32 · 174 阅读 · 0 评论 -
笔记Day03-1 图的绘制 matplotlib
折线图import pandas as pdimport matplotlib.pyplot as pltunrate=pd.read_csv("E:/唐宇迪数据集/unrate.csv")unrate['DATE']=pd.to_datetime(unrate['DATE'])first_twelve=unrate[0:12]plt.plot(first_twelve['DATE'],first_twelve['VALUE'])plt.show()import pandas原创 2020-06-18 20:44:43 · 174 阅读 · 0 评论 -
笔记Day02-1 Pandas
import pandas as pdfood_info=pd.read_csv("C:/Users/de/Desktop/唐宇迪数据集/food_info.csv")print(type(food_info))#之前学习的numpy的类型是ndarrayprint(food_info.dtypes)#pandas中常见的类型int float Object(在pandas中称字符型为object ) datatime bool print(help(pd.read_csv))print.原创 2020-06-08 20:45:06 · 239 阅读 · 0 评论 -
笔记Day01-2 Numpy
科学计算库Numpy通常把数据做成矩阵来进行计算可以提高效率Numpy便是可以进行矩阵运算的库import numpy as npworld_alcohol=np.genfromtxt("C:/Users/de/Desktop/唐宇迪数据集/world_alcohol.txt",delimiter=",",dtype=str)print(type(world_alcohol))print(world_alcohol)print(help(np.genfromtxt))ve..原创 2020-06-06 12:43:55 · 402 阅读 · 0 评论 -
笔记Day01-1 机器学习简介
机器学习流程特征选择就是把输入的数据转换成计算机能够识别的语言学习过程中也不能忽略推导过程,可以在Github、Kaggle上寻找资源机器学习能做什么1.数据挖掘 根据数据进行预测判断,比如根据用户数据判断哪些是容易流失的客户,从而采取挽留方案2.模式识别3.统计学习4.计算机视觉5.语音识别6.自然语言处理比如:翻译...原创 2020-06-06 10:24:06 · 168 阅读 · 0 评论