- 博客(15)
- 收藏
- 关注
原创 吃瓜教程--第六章
1、基本概念和理解1.1 模型:间隔最大的线性分类器支持向量机(Support Vector Machine,SVM)的思想就是,在样本空间中,寻找一个划分超平面,使得分类样本到超平面的最小距离最大化。最小距离是什么?同一类别的数据点,到划分超平面的距离不同,距离最小的点将作为代表,叫做支持向量(support vector)为什么要距离最大?这样模型具有最好的泛化能力,对局部扰动的容忍性最好。图1 支持向量与间隔1.2 策略:求解凸二次规划问题①把最大化问题转化为最小化问题根据上图所示,要
2022-01-28 00:43:50 957
原创 Linux实践(8-10)
8.使用grep和 awk 从文件中筛选字符串8.1下载周杰伦歌词,并解压wget https://mirror.coggle.club/dataset/jaychou_lyrics.txt.zipunzip jaychou_lyrics.txt.zip8.2 使用grep完成以下操作1.统计歌词中 包含【超人】的歌词grep "超人" jaychou_lyrics.txt2.统计歌词中 包含【外婆】但不包含【期待】的歌词grep "外婆" jaychou_ly
2021-12-27 22:39:38 84
原创 Linux实践
打卡:1.使用命令行登录指定的Linux环境本人使用的是Termius(一款ssh工具,如果是Mac或Linux系统,可以直接使用ssh)登录的。登录步骤如下当出现如下图就登录成功:2.在目录下创建文件夹、删除文件夹2.1 创建文件夹A,再在文件夹A内部创建一个文件夹B*2.2 在B为文件夹中创建一个空的TXT文件2.3删除创建的文件和创建的文件夹3.在目录下下载文件、阅读文件4.在目录下使用vi或vim编辑文件...
2021-12-17 00:12:27 1816
原创 动手学数据分析(5)--模型的建立和评价
1.模型的搭建1.1 得到建模数据#读取原始数据train = pd.read_csv('train.csv')#读取清洗过的数据集data = pd.read_csv('clear_data.csv')1.2 选择合适的模型在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习机器学习主要分为两类监督学习:教计算机如何去完成预测任务(有反馈),预先给一定数据量的输入和对应的结果即训练集,建模拟合,最后让计算机预测未知数据的结果。 无监督学习:相对于监督
2021-11-25 23:08:28 1482
原创 动手学数据分析(4)——数据可视化
1.导入数据等# Matplotlib 是Python中类似 MATLAB 的绘图工具# seaborn就是在matplotlib基础上面的封装,方便直接传参数调用import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snstext=pd.read_csv('result.csv')2.数据可视化2.1创建一个数据项,并对其进行基本可视化# 画一条线da
2021-11-22 21:23:30 1568
原创 动手学数据分析(3)--数据重构
1.数据的合并1.1 导入基本库import numpy as npimport pandas as pd1.2载入数据#将data文件夹里面的所有数据都载入,与之前的原始数据相比,观察他们的之间的关系text_left_up = pd.read_csv("train-left-up.csv")text_left_down = pd.read_csv("train-left-down.csv")text_right_up = pd.read_csv("train-right-u
2021-11-19 19:00:00 136
原创 动手学数据分析(2)--数据清洗及特征处理
数据清洗及特征处理1 数据清洗1.1 加载数据import numpy as npimport pandas as pddf=pd.read_csv('train.csv')1.2 缺失值的观察和处理# 查看每个特征缺失值的个数# 显示的是不含缺失值的个数df.count()df.info()# 显示的是缺失值的个数df.isnull().sum()# 查看‘Age’,‘Cabin’,‘Embarked’列的数据# 法一df[['Age','Cabin','E
2021-11-18 00:33:17 1236
原创 动手学数据分析
第一部分:数据的载入以及初步观察1.1 加载数据将收集来数据保存在本地。如本文使用的数据就是从https://www.kaggle.com/c/titanic/overview中下载的。1.1.1 导入numpy和pandas库# numpy是一个处理多维矩阵的一个库,里面包含各种数学方法# pandas是一个强大的分析结构化数据的工具集;他的使用基础Numpy;用于数据挖掘和数据分析,同时也提# 供数据清洗功能import numpy as npimport pandas
2021-11-16 22:44:19 887
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人