- 博客(22)
- 收藏
- 关注
原创 Datawhale Linux组队学习_Task 8~Task 10
开源学习: Datawhale 12月组队学习之Linux实践Task 8:使用grep和awk从文件中筛选字符串下载歌词并解压wget https://mirror.coggle.club/dataset/jaychou_lyrics.txt.zipunzip jaychou_lyrics.txt.zip利用grep命令完成以下操作统计歌词中 包含【超人】的歌词统计歌词中 包含【外婆】但不包含【期待】的歌词统计歌词中 以【我】开头的歌词统计歌词中 以【我】
2021-12-27 09:30:28 438
原创 Datawhale Linux组队学习_Task 5~Task 7
开源学习: Datawhale 12月组队学习之Linux实践Task 3的任务要点是下载文件,移动文件,阅读文件创建文件夹在home/datawhale目录下,新建一个文件夹russell,在文件夹russell内部创建一个以datawhale命令的文件夹wget下载使用head、cat、tail命令阅读下载的文件head: 显示前几行(可以增加限制,指定显示前*行)cat:(英文全拼:concatenate)命令用于连接文件并打印到标准输出设备上。tail: 显示文件后几行
2021-12-22 14:43:02 437
原创 Datawhale Linux组队学习_Task 1~ Task 4
开源学习: Datawhale 12月组队学习之Linux实践在企业内部服务器99%的情况下都是Linux系统,如果你想成为一个合格的软件工程师&算法工程师,Linux是你必备的技能Linux是一个开源的计算机操作系统;其他常用操作系统如Windows, MacOS;Linux的优势是开源,免费,持续改进;Linux的发行版如下:Task1的任务比较简答,安装ssh工具,然后按照指定账号登陆即可;我直接用的Git登录,登录后界面如下:...
2021-12-15 09:32:09 784
原创 Python办公自动化4_Python与PDF
Datawhale组队学习自学笔记,开源内容:链接Python 操作 PDF 会用到两个库,分别是:PyPDF2 和 pdfplumber;其中 PyPDF2 可以更好的读取、写入、分割、合并PDF文件,而 pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格。...
2021-06-23 22:29:35 396
原创 python自动化办公3_python与word
Datawhale组队学习自学笔记,开源内容:链接#pip install python-docx 安装库Word 文档的页面结构 :文档 - Document段落 - Paragraph文字块 - Runpython-docx将整个文章看做是一个Document对象 ,其基本结构如下:每个Document包含许多个代表“段落”的Paragraph对象,存放在document.paragraphs中。每个Paragraph都有许多个代表"行内元素"的Run对象,存放在paragraph
2021-06-20 22:29:16 159
原创 Python办公自动化_ 2.Python与Excel
Datawhale组队学习自学笔记,开源内容:链接Excel读取读取表格#打开已有的Excel表格from openpyxl import load_workbookexl = load_workbook(filename = 'test.xlsx')print(exl.sheetnames)sheet = exl_1['work'] #根据名称获取表格sheet = exl_1.active #若只有一张表#获取Excel内容大小print(sheet.dimensions)
2021-06-18 22:48:42 119
原创 Python办公自动化_ 1.文件自动化处理
Datawhale组队学习自学笔记,开源内容:链接1.读写文件文件的两个属性,路径path和文件名name. 在windows上,路径书写是使用倒斜杠’‘作为文件夹之间的分隔符,而在OS X和Linux上,是使用正斜杠’/'作为它们的路径分隔符。创建文件名称字符串:import osos.path.join('Datawhale','doc')当前工作目录:import osos.chdir(r'D:\0_Document') #更改当前文件地址os.getcwd() #
2021-06-16 23:08:06 167
原创 集成学习——蒸汽量预测
Datawhale开源项目:机器学习集成学习与模型融合(基于python): [链接]背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测
2021-05-23 14:56:35 487
原创 集成学习案例——幸福感预测
Datawhale开源项目:机器学习集成学习与模型融合(基于python): [链接]本次学习内容较复杂,主要是熟悉整个过程,了解每句代码的含义。数据信息案例以 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1代表幸福感最低,5代表幸福感最高)。因为考虑到变量个数较多,部分变量间关系复杂,数据分为完整版和精简版两类。可从精简版入手熟悉赛题后,使用完整版挖掘更多信息。这里使用了完整版的数据。评价指标最终的评价指标为均方误差MSE,即:Scor
2021-05-18 22:29:48 405
转载 集成学习之Stacking
Datawhale开源项目:机器学习集成学习与模型融合(基于python): [链接]sklearn并没有直接对Stacking的方法,因此我们需要下载mlxtend工具包(pip install mlxtend)# 1. 简单堆叠3折CV分类from sklearn import datasetsiris = datasets.load_iris()X, y = iris.data[:, 1:3], iris.targetfrom sklearn.model_selection import
2021-05-13 23:05:11 318
原创 集成学习之Blending
Datawhale开源项目:机器学习集成学习与模型融合(基于python): [链接]Blending集成学习方式:(1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);(2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的;(3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict, test_predict1;(4) 创建第二层
2021-05-11 21:56:53 123
转载 XGBoost算法
Datawhale开源项目:机器学习集成学习与模型融合(基于python): [链接]XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted,包括前面说过,两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。 它在Gr
2021-04-26 22:30:34 170
原创 前向分步算法和梯度提升决策树
Datawhale开源项目:机器学习集成学习与模型融合(基于python): [链接]一. 前向分步算法Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来,我们抽象出Adaboost算法的整体框架逻辑,构建集成学习的一个非常重要的框架----前向分步算法,有了这个框架,我们不仅可以解决分类问题,也可以解决回归问题。(1) 加法模型:在Adaboost模型中,我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和,即:f(x)=∑m=1Mβmb(x;γm)f(x)=\
2021-04-23 22:18:05 131
原创 集成学习之boosting
Datawhale开源项目:机器学习集成学习与模型融合(基于python): [链接](https://link.csdn.net/?target=https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning)Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:B
2021-04-20 21:18:15 368 1
原创 投票法和bagging
投票法投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果.投票法在回归模型与分类模型上均可使用:回归投票法:预测结果是所有模型预测结果的平均值。分类投票法:预测结果是所有模型种出现最多的预测结果。分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(Soft vot
2021-04-14 21:02:09 463
原创 学习笔记_机器学习基础_模型评估和调参
参考:开源项目:机器学习集成学习与模型融合(基于python)Github链接通过网格搜索进行超参数调优方式一:网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_time = time.time()pipe_svc = make_pipeline(StandardScaler(),SVC(random_state=1)
2021-03-29 19:18:07 119
原创 学习笔记_机器学习基础_分类项目
参考:开源项目:机器学习集成学习与模型融合(基于python)添加链接描述机器学习两大典型任务,一个是回归,一个是分类,本文将总结分类项目内容。收集数据集并选择合适的特征选择度量模型性能的指标度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。其次,在分类任务中,我们对于每个类别犯错的代价不尽相同,例如:我们将癌症患者错误预测为无癌症和无癌症患者错误预测为癌症患者,在医院和个人的代价都是不
2021-03-27 21:55:13 211
转载 学习笔记_机器学习基础-模型调优/调参
参考:开源项目:机器学习集成学习与模型融合(基于python)添加链接描述模型参数是模型内部的配置变量,其值可以根据数据进行估计。 进行预测时需要参数。 它参数定义了可使用的模型。 参数是从数据估计或获悉的。 参数通常不由编程者手动设置。 参数通常被保存为学习模型的一部分。 参数是机器学习算法的关键,它们通常由过去的训练数据中总结得出 。模型超参数是模型外部的配置,其值无法从数据中估计。 超参数通常用于帮助估计模型参数。 超参数通常由人工指定。 超参数通常可以使用启
2021-03-24 22:08:00 147
原创 学习笔记_机器学习基础-优化基础
参考:开源项目:机器学习集成学习与模型融合(基于python)https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning机器学习数据集包括训练集和测试集,好的机器学习模型可以在训练集和测试集上都表现优异!首先说明下,偏差Bias,方差Variance和误差Error:Error = Bias + VarianceError反映的是整个模型的准确度,Bias反映的是模型在样本上的输出
2021-03-22 21:50:40 118
原创 学习笔记_机器学习基础-机器学习项目流程
参考:开源项目:机器学习集成学习与模型融合(基于python)httpshttps://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning@[TOC]机器学习项目流程“ 数据决定机器学习结果的上限,而算法只是尽可能的逼近这个上限”。理解实际业务场景,抽象为机器学习能处理的数学问题收集数据,数据预处理特征工程模型构建模型测试评估模型部署与整合迭代优化Boston房价案例以
2021-03-18 22:45:00 109
原创 机器学习基础-1
参加Datawhale的小组学习,把之前自学的机器学习再拾掇拾掇~~参考:开源项目:机器学习集成学习与模型融合(基于python)https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1.定义机器学习是一门从数据中研究算法的科学学科。机器学习直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测。数据集一般由**自变量(x,特征)和因变量(y
2021-03-15 22:23:20 215 2
原创 天池热身_布匹疵点智能识别
CV小白,为了更好了解CV目标检测整个流程,参加了布匹疵点智能识别热身赛。使用了YOLOV5模型,代码参考https://github.com/datawhalechina/team-learning-cv/tree/master/DefectDetection的baseline。以下简单记录下整个流程以及目前的问题吧。#流程1.熟悉赛题2.跑通baseline3.Docker安装配置并推送#问题1.赛事需要通过Docker提交。之前对这个没有接触过,通过Datawahle大神的指导教程摸索了一
2021-02-21 23:40:51 583
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人