自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 DW推荐系统 | Task01 熟悉新闻推荐系统基本流程

Task01 熟悉新闻推荐系统基本流程这两天因为事情较多,只听了直播课程了解了一下基本流程+跑通程序。1.流程图仅了解了大概,说实话有些流程还不太了解。(填坑,之后再补…2.安装流程这一块非常感谢峰哥!基本完全按照他的流程来的,没踩什么坑!撒花!开心!2.1 使用软件版本操作系统:Windows10MySQL:8.0.23Redis:5.0.14Mongodb:5.0.5Anaconda Python 4.8.3Node.js:12.19.0前端IDE:VSCode 1.63.0

2021-12-14 19:17:03 2215

原创 Datawhale-数据分析-泰坦尼克-第三单元-模型建立和评估

第三章 模型搭建和评估–建模经过前面的两章的知识点的学习,我可以对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。今天我们学习建模,下一节我们学习评估。我们拥有的泰坦尼克号的数

2021-06-23 22:29:31 280

原创 Datawhale-数据分析-泰坦尼克-第二单元4节-数据可视化

**复习:**回顾学习完第一章,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,第二章中我们学习了数据的清理和重构,使得数据更加的易于理解;今天我们要学习的是第二章第三节:数据可视化,主要给大家介绍一下Python数据可视化库Matplotlib,在本章学习中,你也许会觉得数据很有趣。在打比赛的过程中,数据可视化可以让我们更好的看到每一个关键步骤的结果如何,可以用来优化方案,是一个很有用的技巧。2 第二章:数据可视化开始之前,导入numpy、pandas以及matplotlib包和数据

2021-06-21 21:18:28 535

原创 Datawhale-数据分析-泰坦尼克-第二单元2.3节

复习:在前面我们已经学习了Pandas基础,第二章我们开始进入数据分析的业务部分,在第二章第一节的内容中,我们学习了数据的清洗,这一部分十分重要,只有数据变得相对干净,我们之后对数据的分析才可以更有力。而这一节,我们要做的是数据重构,数据重构依旧属于数据理解(准备)的范围。开始之前,导入numpy、pandas包和数据# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvdf = pd.read_cs

2021-06-20 01:34:31 138

原创 Datawhale-数据分析-泰坦尼克-第二单元第一节

【回顾&引言】前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理,让大家了解数据分析的一些操作,主要做了数据的各个角度的观察。那么在这里,我们主要是做数据分析的流程性学习,主要是包括了数据清洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。开始之前,导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvtrain_data = pd.

2021-06-17 22:20:35 102

原创 Datawhale-数据分析-泰坦尼克-第一单元

1 第一章:数据载入及初步观察1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/overview1.1.1 任务一:导入numpy和pandas#写入代码import numpy as npimport pandas as pdimport os【提示】如果加载失败,学会如何在你的python环境下安装numpy和pandas这两个库1.1.2 任务二:载入数据(1) 使用相对路径载入数据(2) 使用绝对路径载入数据#写入代码test

2021-06-16 00:37:13 1988

原创 论文阅读《Modeling Semantic Compositionality with Sememe Knowledge》

论文阅读《Modeling Semantic Compositionality with Sememe Knowledge》——基于义素知识的语义组合性建模摘要:Semantic Compositionality(SC)是指一个复杂的语言单元可以由其组成成分的意思构成。大部分研究多采用复杂的组合函数对SC建模,没有考虑外部知识。本文通过一个验证性实验验证了人类语言最小语义单位义原(sememes)在SC建模中的有效性。在此基础上,我们首次尝试将义原知识整合到SC模型中,并将义原整合模型应用到SC的典型任

2021-03-07 22:10:42 404

原创 第二次打卡

过拟合欠拟合欠拟合:一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting);过拟合:另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。在实践中,我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题,在这里我们重点讨论两个因素:模型复杂度和训练数据集大小。模型复杂度对于欠拟合的问题可...

2020-02-18 21:40:20 123

原创 Task01:线性回归;Softmax与分类模型、多层感知机

1.线性回归线性回归输出是⼀个连续值,因此适⽤于回归问题。回归问题在实际中很常见,如预测房屋价格、气温、销售额等连续值的问题。与回归问题不同,分类问题中模型的最终输出是⼀个离散值。我们所说的图像分类、垃圾邮件识别、疾病检测等输出为离散值的问题都属于分类问题的范畴。softmax回归则适用于分类问题。在学习线性回归中,遇见的主要问题如下:读取数据集其中yield的用法def data_it...

2020-02-14 20:02:24 172

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除