自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yxyibb

一点一滴,滴水石穿

  • 博客(90)
  • 收藏
  • 关注

原创 AI-应试-机器学习公式推导与代码实现-预备

欠拟合:继续学过拟合:把噪声也学到了训练误差正则化(惩罚项)正则化参数的同时最小化经验误差泛化能力:最大程度拟合训练数据,对未知测试数据有好的泛化能力方法:数据采集、特征工程、算法调优。

2023-05-08 00:16:47 329 1

原创 大数据-学习实践-5企业级解决方案

MapReduce原理计算过程执行步骤wordcount案例日志查看:开启YARN日志聚合,启动historyServer进程程序扩展:去掉ReduceShuffle过程序列化Writable实现类特点源码分析性能优化小文件数据倾斜YARN资源管理:内存+CPU调度器:常用CapacityScheduler。

2023-03-16 17:42:19 827

原创 大数据-学习实践-2Hadoop

分布式存储+分布式计算选择CDH或HDP,方便运维管理2.0:YARN拆出来,资源管理平台3.0:Jaca支撑8及以上;支撑纠删码;支持多个NameNode;MR任务级本地优化;多重服务默认端口变更三大核心组件HDFS,分布式存储MapReduce,分布式计算Yarn ,集群资源管理及调度。

2023-03-15 09:57:01 258

原创 大数据-学习实践-4MapReduce

只需要磁盘IO,不需要网络IOMapReduce是一种分布式计算模型,用于搜索,解决海量数据计算Map+Reduce阶段。

2023-03-14 19:57:12 255

原创 大数据-学习实践-3HDFS

Hadoop之HDFS

2023-03-09 16:39:34 385

原创 大数据-学习实践-1相关Linux

大数据基础介绍,Linux使用

2023-02-13 12:15:11 372

原创 数分-工具-Pandas2-pandas基础

(AI算法系列)

2022-08-24 21:58:29 352 1

原创 数分-工具-Pandas1-预备知识

pandas预备知识

2022-08-19 23:42:09 173

原创 AI-理论-知识图谱1-基础

知识图谱本质上是语义网络(SemanticNetwork)的知识库多关系图(Multi-relationalGraph)图(Graph)多类型节点(Vertex)+多类型边(Edge)节点实体边关系Schema加入知识图谱数据的格式规范结构化数据的表达,一条数据必须满足Schema预先定义好的实体对象及类型才可更新到图谱。AI-知识工程-知识表示-知识图谱...

2022-07-25 16:14:46 585

原创 AI-理论-吃瓜教程-神经网络-task4

AI-理论-吃瓜教程-神经网络-task4(Datawhale37期组队学习)文章目录AI-理论-吃瓜教程-神经网络-task41知识点2具体内容2.1神经元模型2.2感知机2.3多层网络2.4误差逆传播2.5全局最小与局部极小2.6常见NN2.7DL3待补充4Q&A5code6参考1知识点神经元模型感知机多层网络误差逆传播全局最小与局部极小常见NNDL2具体内容2.1神经元模型神经元:简单单元M-P神经元模型多个输入+带权重连接+与阈值比较+激活函数

2022-05-29 23:41:48 3358

原创 AI-理论-吃瓜教程-决策树-task3

AI-理论-吃瓜教程-决策树-task3(Datawhale37期组队学习)文章目录AI-理论-吃瓜教程-决策树-task31知识点2具体内容2.1流程2.2划分选择2.2.1信息熵2.2.2信息增益2.2.3增益率2.2.4基尼指数3待补充4Q&A5code6参考1知识点流程划分选择信息熵信息增益增益率基尼系数2具体内容2.1流程决策树(decision tree),判定树叶节点-》决策结果根节点(包含样本全集)、内部节点(包含对应样本集合)-》属性测试根

2022-05-24 23:51:37 92

原创 AI-理论-吃瓜教程-线性模型-task2

AI-理论-吃瓜教程-线性模型-task2(Datawhale37期组队学习)文章目录AI-理论-吃瓜教程-线性模型-task21知识点2具体内容2.1基本2.2线性回归2.3对数几率回归(分类)2.4线性判别分析(LDA)2.5多分类学习2.6类别不平衡问题3待补充4Q&A5code6参考1知识点基本线性回归对数几率回归线性判别分析多分类学习类别不平衡问题2具体内容2.1基本线性模型的基本形式,学习w,b,拟合一条直线:2.2线性回归拟合直线尽可能准确预测输出

2022-05-22 22:24:48 168

原创 AI-理论-吃瓜教程-基础-task1

(Datawhale37期组队学习)文章目录AI-理论-吃瓜教程-基础-task11知识点2具体内容2.1基本术语2.2归纳偏好2.3经验误差、过拟合2.4评估方法2.5性能度量2.6比较检验2.7偏差与方差3待补充4Q&A5code6参考1知识点基本术语归纳偏好经验误差、过拟合评估方法性能度量比较检验偏差与方差2具体内容2.1基本术语通过计算手段,利用经验改善系统自身的性能。模型->学习算法数据集特征、属性属性空间、样本空间训练集泛化:学得模型适用于.

2022-05-15 23:13:27 216

原创 AI-理论-花书浅笔-D3概率论信息论

AI-理论-花书浅笔-D3概率论信息论(AI算法系列)文章目录AI-理论-花书浅笔-D3概率论信息论1知识点2具体内容2.1 基本概念2.2 常用概率2.3常用函数2.4贝叶斯规则2.4 信息论2.5 结构化概率模型(图模型)3待补充4Q&A5code6参考1知识点使用概率随机变量概率分布边缘概率条件概率条件概率链式法则独立性、条件独立性期望、方差、协方差常用概率分布常用函数的有用性质贝叶斯规则连续变量信息论结构化概率模型2具体内容2.1 基本概念使用

2022-05-11 21:01:22 118

原创 AI-理论-花书浅笔-D2线性代数

AI-理论-花书浅笔-D2线性代数(AI算法系列)文章目录AI-理论-花书浅笔-D2线性代数1知识点2具体内容2.1 标量、向量、矩阵、张量(广播)2.2 矩阵、向量相乘2.3 单位矩阵、逆矩阵2.4 线性相关、生成子空间2.5 范数2.6 特殊类型矩阵、向量2.7 特征分解2.8 奇异值分解2.9 Moore-Penrose伪逆2.10 迹运算2.11 行列式2.12 主成分分析3待补充4Q&A5code6参考1知识点标量、向量、矩阵、张量(广播)矩阵、向量相乘单位矩阵、逆矩阵线性

2022-05-10 00:26:14 136

原创 AI-理论-花书浅笔-D1引言

AI-理论-花书浅笔-D1引言(AI算法系列)文章目录AI-理论-花书浅笔-D1引言1知识点2具体内容2.1一些定义2.2历史趋势3待补充4Q&A5code6参考1知识点一些定义历史趋势2具体内容2.1一些定义人工智能 artificial intelligenceAI深度学习 deep learning知识库 knowledge base机器学习 machine learning:从原始数据提取模式的能力逻辑回归 logistic regression朴素贝叶斯

2022-05-09 17:17:05 353

原创 thorough-pytorch-main-task2

task2 PyTorch进阶(Datawhale35期组队学习)文章目录task2 PyTorch进阶1基础点2具体内容2.1 自定义损失函数2.1.1 函数定义2.1.2 类定义2.2 动态调整学习率2.2.1官方scheduler2.2.2 自定义scheduler2.3 模型微调2.3.1流程2.3.2使用已有模型2.3.3训练特定层2.4 半精度训练2.4.1半精度训练设置3参考1基础点自定义损失函数函数定义类定义动态调整学习率官方scheduler自定义schedul

2022-03-20 00:08:03 110

原创 飞桨AI创造营2期-t7-部署

飞桨AI创造营2期-t7-部署(Datawhale34期组队学习)文章目录飞桨AI创造营2期-t7-部署1知识点2具体内容2.1ONNX部署2.1.1介绍2.1.2使用ONNX2.1.3工具2.1.4步骤2.2openvino2.2.1介绍2.2.2部署2.2.3Toolkit生态3参考1知识点openvino+ONNX部署nano部署edgeboard部署安卓部署服务器端在线部署2具体内容2.1ONNX部署2.1.1介绍ML模式的开放模式,允许各种ML框架和工具之间转化模型定

2022-02-27 17:55:47 304

原创 飞桨AI创造营2期-t6-模型优化

飞桨AI创造营2期-t6-模型优化(Datawhale34期组队学习)文章目录飞桨AI创造营2期-t6-模型优化1知识点2具体内容2.1模型结构优化2.1.1优化之路2.1.2senet-sknet-resnest2.2模型性能优化2.2.1量化2.2.2剪枝2.2.3知识蒸馏2.3模型训练优化2.3.1数据处理2.3.2超参数2.3.3Loss2.4模型自动搜索2.4.1搜空间2.4.2搜策略2.5工具3参考1知识点模型结构优化模型性能优化模型训练优化模型自动搜索2具体内容cv例子:

2022-02-22 16:04:22 221

原创 飞桨AI创造营2期-t5-模型训练

飞桨AI创造营2期-t5-模型训练(Datawhale34期组队学习)文章目录飞桨AI创造营2期-t5-模型训练1知识点2具体内容2.1建立网络2.1.1打车例子-预测2.1.2数字识别-分类2.2 paddle3参考1知识点建立网络打车例子-预测数字识别-分类paddleX2具体内容2.1建立网络2.1.1打车例子-预测data定义网络定义loss定义优化器组件训练程序预测import paddle#1.data 打车里程与费用data_x = [3,1

2022-02-21 13:38:51 963

原创 飞桨AI创造营2期-t4-NN

飞桨AI创造营2期-t4-NN(Datawhale34期组队学习)文章目录飞桨AI创造营2期-t4-NN1知识点2具体内容2.1NN基础2.2线性回归2.3 Softmax分类器2.4多层感知机2.5卷积NN2.6其他NN3参考1知识点NN基础全连接网络CNN实战 线性回归2具体内容2.1NN基础1 建立模型选什么样的网络结构选多少层数,每层选多少神经元2损失函数常用loss,平方误差,交叉熵总损失最小3参数学习梯度下降停在鞍点停在局部最优停在全局最优

2022-02-19 11:12:41 658

原创 飞桨AI创造营2期-t3-数据处理

飞桨AI创造营2期-数据处理(Datawhale34期组队学习)文章目录飞桨AI创造营2期-数据处理1知识点2具体内容2.1AI Studio Notebook命令2.2Numpy基础2.3Opencv2.4数据集读取与预处理3参考1知识点AI Studio Notebook命令Numpy创建数据属性切片索引生成随机数组通用函数TensorOpencv图像基础操作图像增强方式数据集读取与预处理官方数据集读取与预处理自定义数据集读取与预处理2具体内容

2022-02-17 17:53:32 1560

原创 数分-理论-大数据8-总结

数分-理论-大数据8-总结(数据分析系列)文章目录数分-理论-大数据8-总结1知识点2具体内容2.1框架综述2.2发展简史2.2.1萌芽(2003-2008)2.2.2快速进展(2009-2014)2.2.3成熟(2015-)2.2.4大数据分析引擎2.3结语3参考1知识点框架综述发展简史结语2具体内容2.1框架综述大数据框架在总体上分为存储引擎和计算分析引擎存储引擎通常用来存储海量数据分析引擎通常用来分析海量数据2.2发展简史2.2.1萌芽(2003-2008)Go

2022-01-25 21:23:36 1357

原创 数分-理论-大数据7-Spark

数分-理论-大数据7-Spark(大数据框架)(数据分析系列)文章目录数分-理论-大数据7-Spark(大数据框架)1知识点2具体内容2.1概述2.1.1起源2.1.2诞生2.1.3Spark与Hadoop、MapReduce、HDFS的关系2.1.4生态体系2.2编程模型-核心2.2.1RDD概述2.2.2RDD定义2.2.3RDD五大特性2.2.4RDD操作函数2.3架构原理2.3.1计算阶段2.3.2划分计算阶段2.3.3作业管理2.3.4执行过程2.4实战应用3参考1知识点概述编程模型

2022-01-25 20:49:42 2688 1

原创 数分-理论-大数据6-Hive

数分-理论-大数据6-Hive(数据仓库)(数据分析系列)文章目录数分-理论-大数据6-Hive(数据仓库)1知识点2具体内容2.1数据仓库2.1.1起源2.1.2数仓概念2.1.3体系结构2.1.4存在挑战2.2Hive基础2.2.1概述2.2.2背景2.2.3Hive与Hadoop生态系统2.2.4对比2.2.5模拟实现2.3Hive核心2.3.1数据类型2.3.2数据模型2.4Hive系统结构2.4.1用户接口模块2.4.2驱动模块Driver2.4.3元数据存储模块Metastore2.4.4H

2022-01-24 17:36:42 2708

原创 数分-理论-大数据5-MapReduce

数分-理论-大数据5-MapReduce(分布式并行编程模型)(数据分析系列)文章目录数分-理论-大数据5-MapReduce(分布式并行编程模型)1知识点2具体内容2.1分布式并行编程2.2简介2.3 MapReduce函数2.4工作流程2.5执行阶段2.6shuffle过程详解2.6.1过程2.6.2Map2.6.3Reduce2.7以WordCount例子,理解MapReduce2.7.1wordcount过程图2.7.2工作流程2.7.3数据分片2.7.4过程详解2.7.5MapReduce工作

2022-01-23 17:35:37 664

原创 数分-理论-大数据4-HBase

数分-理论-大数据4-HBase(分布式数据库)(数据分析系列)文章目录数分-理论-大数据4-HBase(分布式数据库)1知识点2具体内容2.1Hadoop局限2.2简介2.3HBase数据模型2.3.1模型2.3.2相关概念2.3.3数据坐标2.3.4概念视图2.3.5物理视图2.3.6面向列存储2.4实现原理2.4.1HBase功能组件2.4.2表和Region2.4.3Region的定位2.5运行机制2.5.1HBase系统架构2.5.2Region服务器工作原理2.5.3Store的工作原理2.

2022-01-13 15:17:03 1422

原创 数分-理论-大数据3-HDFS

数分-理论-大数据3-HDFS(分布式文件系统)(数据分析系列)文章目录数分-理论-大数据3-HDFS(分布式文件系统)1知识点2具体内容2.1背景2.2简介2.3体系结构2.4存储原理2.4.1数据冗余存储2.4.2数据存储策略2.4.3数据错误与恢复2.5数据读写过程2.6安装应用3参考1知识点背景简介体系结构存储原理数据读写过程安装应用2具体内容2.1背景大数据->高效存储->分布式文件系统->HDFS分布式文件系统是管理网络中跨多台计算机存储的文件系

2022-01-07 14:29:55 673

原创 数分-理论-大数据2-Hadoop

数分-理论-大数据2-Hadoop(数据分析系列)文章目录数分-理论-大数据2-Hadoop1知识点2具体内容2.1发展2.2简介2.3项目架构2.4安装应用参考1知识点发展简介项目架构安装应用2具体内容2.1发展Lucene:文本搜索的函数库,全文检索引擎Nutch:建立在Lucene核心之上的网页搜索应用程序,加了网络爬虫和一些网页相关的功能GFS(2003):google为存储海量搜索数据而设计的专用文件系统NDFS(2004):分布式文件存储系统Nutch Distr

2022-01-05 10:37:15 1343

原创 数分-理论-大数据1-概述

数分-理论-大数据1-概述(数据分析系列)文章目录数分-理论-大数据1-概述1知识点2具体内容2.1大数据基础2.2概念2.3应用2.4关键技术3参考1知识点大数据基础概念应用关键技术2具体内容2.1大数据基础“互联网+”信息时代,信息化数据共享对所占有的数据进行深入分析,实现开发利用,从中发现新知识、创造新价值、提升新能力,取得实实在在的工作成效,才能够真正实现数据的价值2.2概念4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快( Velocit

2022-01-04 10:57:24 1846

原创 数分-理论-数据方法

数分-理论-思维方法(数据分析系列)文章目录数分-理论-思维方法1知识点2具体内容2.1公式法2.2对比法2.3象限法2.4二八法/ 帕累托分析2.5漏斗法1知识点公式法对比法象限法二八法/ 帕累托分析漏斗法2具体内容2.1公式法针对某个指标,用公式层层分解该指标的影响因素逐层拆解,细化评估及分析粒度eg:产品销售额低原因销售额=销量*产品单价销售量=渠道A+渠道B+渠道C+。。。渠道销售量=点击用户数*下单率点击用户数=曝光量*点击率销售额:销量问题还是定价问

2021-12-29 16:38:28 1089

原创 数分-理论-数据思维

数分-理论-数据思维(数据分析系列)文章目录数分-理论-数据思维1知识点2具体内容2.1结构化思维2.2假说演绎思维2.3指标化思维2.4维度分析思维1知识点结构化思维假说演绎思维指标化思维维度分析思维2具体内容逻辑化思维看待事物,用数据证明归纳:以情况为起点;复杂问题分解成多种单一因素,并归纳整理,条理化演绎:以规则为起点2.1结构化思维金字塔、结构化思维:中心论点出发,衍生出不同层次分论点1.MECE法则:尽可能列出所有思考要点找出关系,分类论点之间相互独立

2021-12-28 15:10:41 835

原创 FunRec-task5

task5推荐系统构建(Datawhale32期组队学习)文章目录task5推荐系统构建基础点知识点1Offine1.1推荐页1.2热门页2 Online2.1推荐2.2热门个人需要补充的点参考基础点Offline热门推荐Online知识点1Offine离线计算已储存好的物料画像和用户画像,为用户提供热门和推荐页列表并缓存入redis,方便online服务的列表获取。1.1推荐页用户登录进入后即推荐页,online给当前用户推荐页列表,离线缓存好存入redis1.千人千面

2021-12-26 11:57:07 668

原创 FunRec-task4

task4前后端基础及交互(Datawhale32期组队学习)文章目录task4前后端基础及交互基础点知识点1前端基础1.1 Web前端1.1.1 web是1.1.2 标准构成1.1.3 html1.1.4 css1.1.5 js1.2 Vue1.2.1 安装1.2.2 实例1.2.3 生命周期1.2.4 项目2后端请求逻辑2.1Flask基础2.1.1路由2.1.2请求2.1.3重定向与错误处理2.1.4 SQLAlchemy2.4.4 **操作数据库**3前后端交互3.1项目样式展示3.2后端目录3

2021-12-24 16:12:00 786

原创 FunRec-task3

task3自动化构建用户及物料画像(Datawhale32期组队学习)文章目录task3自动化构建用户及物料画像基础点知识点1物料画像构建1.1物料来源1.2更新2用户画像构建3画像自动化创建个人需要补充的点参考基础点离线自动化构建用户+物料画像物料爬虫,处理,构建物料画像用户注册有行为,更新自动化创建知识点1物料画像构建1.1物料来源凌晨爬取前一天的新闻,物料丰富但时效延长一天。新爬取的物料存在MongoDB中。1.2更新目的:新物料进库旧物料通过用户

2021-12-22 23:59:44 473

原创 FunRec-task2

task2熟悉数据库(Datawhale32期组队学习)文章目录task2熟悉数据库基础点知识点1 MySQL1.1用前需要知道的1.1.1用处1.1.2简介1.1.3安装1.2 预备知识1.2.1规范1.2.2命名规则1.3基本操作1.4表1.5运算符1.6分组查询1.7数据增删改查1.8Pymysql2 MongoDB2.1用前需要知道的2.1.1用处2.1.2 简介2.1.3 特点2.1.4 安装2.2 集合2.3文档2.4排序2.5Python MongoDB3 Redis3.1用前需要知道的3

2021-12-19 01:29:21 101

原创 FunRec-task1

task1熟悉新闻推荐系统基本流程(Datawhale32期组队学习)文章目录task1熟悉新闻推荐系统基本流程基础点知识点1 数据流图1.1 物料1.2 数据库1.3 离线offline1.4 在线online2 工具集2.1 项目与工具2.2 运行调试3 参考基础点数据流图原理工具知识点1 数据流图离线offline+在线online两部分1.1 物料每天0点爬取前一天的内容,爬取完数据再更新特征库,更新完特征库之后再更新用户的画像,然后将redis中所有数据都清空,

2021-12-15 00:43:08 596

原创 UnusualDeepLearning-task5

task5RNN(Datawhale31期组队学习)文章目录task5RNN基础点知识点参考基础点计算图RNN基本原理结构BPTT长短时记忆网络LSTM经典的循环神经网络Gated Recurrent Unit(GRU)Peephole LSTMBi-directional RNN(双向RNN)Continuous time RNN(CTRNN)主要应用语言模型自动作曲机器翻译自动写作图像描述知识点参考https://datawhalec

2021-12-02 01:11:01 84

原创 UnusualDeepLearning-task4

task3前馈神经网络(Datawhale31期组队学习)文章目录task3前馈神经网络基础点知识点1 神经元模型基础点神经元模型神经元(M-P)网络结构感知器、多层感知器单层感知器多层感知器BP算法基本过程激活函数示例优化知识点1 神经元模型神经网络是最早的一种连接模...

2021-11-21 17:50:19 105

原创 UnusualDeepLearning-task3

task3前馈神经网络(Datawhale31期组队学习)文章目录task3前馈神经网络基础点知识点1 神经元模型1.1 神经元(M-P)1.2 网络结构2 感知器2.1 单层感知器-线性可分2.2 多层感知器-线性不可分3 BP算法3.1 过程3.2 激活函数3.3 BP示例4 优化问题4.1 难点4.2 需求4.3 非凸优化问题4.4 梯度消失问题参考基础点神经元模型神经元(M-P)网络结构感知器、多层感知器单层感知器多层感知器BP算法基本过程激活函数示例

2021-11-16 23:32:01 630

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除