![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学与机器学习算法学习笔记
文章平均质量分 59
数据科学与机器学习算法系列学习笔记,1.【不调库】纯Python实现数据科学与机器学习常见经典算法,2.手推各类经典算法与底层数学原理,3.利用自己构建的算法实战Kaggle项目。系统化的学习,一站式搞定数据科学与机器学戏
gemoumou
hello word
展开
-
机器学习从零开始-Kaggle数据用PurePython实战
一,红酒质量分析 #1.加载csv #2.将字符串转换为浮点 #3.规范化 #4.交叉验证 #5.评估我们的算法(RMSE) # 1 . 导入标准库 from csv import reader from math import sqrt from random import randrange from random import seed # 2. 加载我们的csv文件 def csv_loader(filename): dataset = list() with open(fil原创 2021-04-26 23:00:37 · 484 阅读 · 1 评论 -
机器学习从零开始-常见算法手推pure python
简单线性回归 代码 # 平均值函数 def calculate_mean(a_list_of_values): mean=sum(a_list_of_values)/float(len(a_list_of_values)) return mean # 计算方差函数 def calculate_variance(a_list_of_values,mean): variance_sum=sum((x-mean)**2 for x in a_list_of_values原创 2021-03-28 22:30:22 · 603 阅读 · 1 评论 -
从零开始数据科学与机器学习算法-集成算法-10
概述 把各种model综合起来——让预测更准确、更加稳定(做平均) 在随机森林里面的超参数(hyper-parameter): 1.对于每一棵树,要选取特性(features),假设总共有n个feature,你需要确定选取个m作为参数 2.每一个node的最低size(每个棵树的每一片叶子的最小值) 3.每一个树的深度(maximum depth of one tree) 4.选择森林里面有多少棵树 一、bagging from random import seed from random impor原创 2021-03-15 22:13:11 · 158 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-人工神经网络与反向传播-09
概述 rectifier其实就是一种模仿生物的激活机制的函数 (activation function) 常见的激活函数 https://en.wikipedia.org/wiki/Rectifier_(neural_networks)#Gaussian_Error_Linear_Unit_(GELU) import math #math库是python提供的内置数学类函数库 softplus = math.log(1+math.exp(2.14)) print(softplus) sigm原创 2021-03-11 22:27:19 · 161 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-学习向量量化(Learning_Vector_Quantization)-08
LVQ概述 通常,我们使用LVQ方法用在分类问题上。 codebook vector(是一系列数字,与你训练数据里的input与output相关的特征一样) 例: 1.class 0,1 2.width 3.height 4.length codebook vector(neuron): 1.class 0,1 2.width 3.height 4.length LVQ跟KNN 通过在codebook vector里面进行寻找,通过Euclidean距离进行判断,找到BMU(Best Matching Un原创 2021-03-10 22:27:15 · 334 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-KNN分类算法-07
1.k——超参数(hyper-parameter) 2.k最好为奇数(no even number , better be odd) 3.k大小有学问: k太小:outliers 对判断的影像加大 k太大:会"冲淡"周边neighbor(高质量、高权重的数据)对最终判断的影像 # Euclidean Distance def calculate_euclidean_distance(row1,row2): # 累计的计数器 distance = 0.0 for i in rang.原创 2021-03-08 21:55:24 · 411 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-朴素贝叶斯-07
朴素贝叶斯概念 例子:邮件分类问题: N = (12/17)*(5/11)*(3/11) S = (5/17)*(2/7)*(1/7) print(N) print(S) # N>S 我们可以判断这是一封正常邮件 常见问题1 因为图2中 吗出现的次数是0 那么这封邮件就会被误判为正常邮件 解决如果遇到样本里面有0的情况,可以通过添加alpha进行解决。 alpha=1 统一增加1 确保不会出现无0的情况 N = (12/17)*((1/15)**4)*(3/15) S = (5/1原创 2021-03-07 21:55:09 · 191 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-分类与决策树-06
。。。。。。。。。。。。。原创 2021-03-07 13:47:27 · 110 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-简单感知器-05
如下图给定的一组数据可以通过一条线分割成两个不同的类别称之为Linearly_Separable原创 2021-03-01 21:48:42 · 122 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-逻辑回归-04
Logistic Regression 更多的是从概率的层面进行建模,但是我们实际应用中,更多的是用在二元分类型的问题 案例: 列子:如上图所示:有两类数据 方形=0 圆形=1 坐标轴 类型: X1 ,X2 ,0/1 2 ,2 , 0 2 ,4 , 0 3 ,3 , 0 4 ,5 , 0 8 ,1 , 1 8.5,3.5 , 1 9 ,1 , 1 10 ,4 , 1 # prediction function from math import exp def prediction(row, coeffic原创 2021-02-28 22:16:55 · 95 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-梯度下降-03
#make prediction def make_prediction(input_row,coefficients): out_put_y_hat = coefficients[0] for i in range(len(input_row)-1): out_put_y_hat += coefficients[i+1] * input_row[i] return out_put_y_hat test_dataset = [[1,1], .原创 2021-02-27 22:13:17 · 82 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-线性回归-02
简单线性回归 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 问题1. The relationship between working experience and salary? 工作经验和工资之间的关系? # 数据 experience=[1,2,3,4,5,6,7,8,9,10,2,2,3,3,3,2,4,5,5,2] salary =[5000,7000原创 2021-02-25 13:23:46 · 179 阅读 · 1 评论 -
从零开始数据科学与机器学习算法-知识点补充-00
1,Descriptive statistics 2,Inferential statistics sample(sample statistic) – sampling(estimate)–population(parameter) 1)sampling 2)estimate 3)Hypothesis test原创 2021-02-24 21:59:27 · 135 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-数据预处理与基准模型-01
读取数据函数 from csv import reader # 导入库 def read_csv(the_name_of_file_to_be_read): # 定义数据读取函数 file = open(the_name_of_file_to_be_read,"r")#要读取的文件的名称 every_line_of_the_data = reader(file) # 读取每一行数据 the_dataseet = list(every_line_of_the_data) # 把每原创 2021-02-20 22:33:49 · 268 阅读 · 1 评论