埋在地里的小土豆-CSDN博客

原创智慧海洋建设-Task5 模型融合

Datawhale 智慧海洋建设-Task5 模型融合内容介绍 https://mlwave.com/kaggle-ensembling-guide/ https://github.com/MLWave/Kaggle-Ensemble-Guide 模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式。. 1.简单加权融合: 回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting) 2.boosting/bagging

2021-04-24 22:49:07 341

原创智慧海洋建设-Task4模型建立

智慧海洋建设-Task4模型建立该部分学习如何进行模型的搭建及调参模型训练与预测模型训练与预测的主要步骤为： (1):导入需要的工具库 (2):对数据预处理，包括导入数据集、处理数据等操作，具体为缺失值处理、连续特征归一化、类别特征转换等 (3):训练模型。选择合适的机器学习模型，利用训练集对模型进行训练，达到最佳拟合效果。 (4):预测结果。将待预测的数据输入到训练好的模型中，得到预测的结果。以下是常用几种算法：随机森林随机森林是通过集成学习的思想将多棵树集成的一种算法，基本单元是决策树，而它

2021-04-23 00:36:04 307

原创 Datawhale 智慧海洋建设-Task3 特征工程

Datawhale 智慧海洋建设-Task3 特征工程这里说声抱歉，这部分内容对于初学者的我来说难度有些大，内容有点多，只看了大约一半，还有一半会继续学习，待学完会及时补充笔记。 DataWhale 此部分为智慧海洋建设竞赛的特征工程模块，通过特征工程，可以最大限度地从原始数据中提取特征以供算法和模型使用。通俗而言，就是通过X，创造新的X’以获得更好的训练、预测效果。 “数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”——机器学习界；类似的，吴恩达曾说过：“特征工程不仅操作困难、耗时，

2021-04-21 00:17:08 472 2

原创 Datawhale 智慧海洋建设-Task1

这是在datawhale组织里参加的一个组队学习，内容是海洋数据分析，第一章内容还未学完，后面学习完毕会及时补充整个笔记，这里说声抱歉 DataWahle Datawhale 智慧海洋建设-Task1 地理数据分析常用工具在地理空间数据分析中，常会用到许多地理分析的工具，在本模块中主要是针对常用的shapely、geopandas、folium、kepler.gl、geohash等工具进行简单介绍 shapely Shapely是python中开源的空间几何对象库，支持Point、Curve和Surfac

2021-04-15 00:32:19 571

原创深度推荐模型DIN

DIN 今天来学习深度推荐模型中的深度兴趣模型DIN(Deep Interest Network),该模型是由阿里在17年提出的，该模型充分利用用户历史行为数据中的信息来提高CTR预估的能力。以这个模型的使用场景是非常注重用户的历史行为特征（历史购买过的商品或者类别信息）模型背景常用的CTR预估模型都是将高维离散型特征转换为固定长的连续型特征，然后通过多个全连接层，最后通过一个激活函数转化为0-1的值，来代表点击的概率，过程即为Sparse Features -> Embedding Vector

2021-03-28 00:06:21 642

原创深度推荐模型之NFM模型

NFM 背景今天学习深度推荐模型中的NFM(Neural Factorization Machines)模型，该模型是由2017年在SIGIR会议上提出的。CTR预估中，为了解决稀疏特征的问题，学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系，无法建模两个特征之间深层次的关系或者说多个特征之间的交互关系，所以通过Deep Network来建模更高阶的特征之间的关系，提出了一种将FM融合进DNN的策略，通过引进了一个特征交叉池化层的结构，使得FM与DNN进行了完美

2021-03-25 00:32:20 1046

原创 DeepFM

推荐算法DeepFM 算法背景对于一个基于CTR预估的推荐系统，最重要的是学习到用户点击行为背后隐含的特征组合。在不同的推荐场景中，低阶组合特征或者高阶组合特征可能都会对最终的CTR产生影响，所以说特征组合问题是深度学习推荐模型的重中之重。对于上述特征组合问题，传统的解决方案有因子分解机算法(FM),该算法通过对于每一维特征的隐变量内积来提取组合特征，研究发现，该方案的结果相较于传统的算法有了较大的改善，但是FM算法其复杂度高，计算困难，通常只能用于二阶特征组合。对于高阶特征特征组合往往较为吃力。对于高

2021-03-21 23:47:21 230

原创 Wide&Deep模型

Wide&Deep 这次我们来学习推荐算法中的Wide&Deep模型。该模型出自Google 在16年发布的一篇文章 Wide & Deep Learning for Recommender Systems。在文中提出了一种融合浅层（wide）模型和深层（deep）模型进行联合训练的框架该框架综合利用浅层模型的记忆能力和深层模型的泛化能力，实现单模型对推荐系统准确性和扩展性的兼顾。该模型主要用来在推荐系统的点击率预估，即给出用户一个物品是否进行点击操作或者给出点击的概率。文章摘要

2021-03-19 00:33:49 479

原创 DeepCrossing学习

DeepCrossing学习此次在datawhale小组下学习深度推荐算法，对于推荐算法，只看过协同过滤和隐语义模型，对于深度学习推荐算法知之甚少，通过此次学习了解深度推荐算法。首先开始学习DeepCrossing模型。算法原理 DeepCrossing模型主要解决的问题 1.特征在编码后过于稀疏，输入神经网络中训练不太适合，deepcrossing模型可以解决稀疏特征向量稠密化的问题。 2.在深度学习中经常会遇到特征交叉组合问题，DeepCrossing可以很好解决特征自动交叉组合问题。 3.可以

2021-03-17 02:01:46 463

原创论文数据分析-5(作者信息关联)

任务5：作者信息关联 5.1 任务说明学习主题：作者关联（数据建模任务），对论文作者关系进行建模，统计最常出现的作者关系；学习内容：构建作者关系图，挖掘作者关系学习成果：论文作者知识图谱、图关系挖掘 5.2 数据处理步骤将作者列表进行处理，并完成统计。具体步骤如下：将论文第一作者与其他作者（论文非第一作者）构建图；使用图算法统计图中作者与其他作者的联系； 5.3 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Gra

2021-01-25 23:59:35 526

原创论文数据分析-4(论文种类分类)

任务4：论文种类分类这部分内容作者还没有完成，先放出来大家参考，作者会继续补充，不喜勿喷 4.1 任务说明学习主题：论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；学习内容：使用论文标题完成类别分类；学习成果：学会文本分类的基本方法、TF-IDF等 4.3 文本分类思路思路1：TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征，使用分类器进行分类，分类器的选择上可以使用SVM、LR、XGboost等思路2：FastText FastText是入门款的词向量，利用F

2021-01-23 00:19:33 1046 1

原创论文数据分析-3(论文代码统计)

任务3：论文代码统计任务主题：论文代码统计，统计所有论文出现代码的相关统计；任务内容：使用正则表达式统计代码连接、页数和图表数据；任务成果：学习正则表达式统计； import pandas as pd import numpy as np import re import json import matplotlib.pyplot as plt data = [] with open(r'arxiv-metadata-oai-2019.json','r') as f: for idx,l

2021-01-19 23:29:29 302

原创论文数据分析-2(作者数据统计)

任务2：论文作者统计接着上一节继续，需要统计所有论文作者的信息，废话不多说，直接上代码。 import numpy as np import pandas as pd import re import json import matplotlib.pyplot as plt data = [] with open(r'arxiv-metadata-oai-2019.json', 'r') as f: for idx, line in enumerate(f): d = js

2021-01-17 00:27:05 496

原创论文数据分析-1(论文数据统计)

这是在学习数据分析的一个实例，论文数据分析，这是第一部分，笔者刚学习此项内容，有问题大家提出来，不喜勿喷。任务1：论文数据统计1 1.1 任务说明任务主题：论文数量统计，即统计2019年全年计算机各个方向论文数量；任务内容：赛题的理解、使用 Pandas 读取数据并进行统计；任务成果：学习 Pandas 的基础操作；可参考的学习资料：开源组织Datawhale joyful-pandas项目 import pandas as pd import numpy as np import json im

2021-01-14 00:22:11 2438 1

原创 pandas学习task11综合任务

这是在datawhale学习小组学习pandas的最后综合练习，以下是学习笔记，仅供参考，不喜勿喷，笔者比较菜还在肝第二题，先把题目放出来，大家一块学习。 DataWhale Task Special & Task 11 综合练习 import pandas as pd import numpy as np 任务一企业收入的多样性【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标：其中 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9p44b

2021-01-13 23:56:28 386

原创 pandas学习task10时序数据

这是在datawhale学习小组学习pandas的第十章内容，时序数据，以下是学习笔记，仅供参考，不喜勿喷 DataWhale 第十章时序数据 import numpy as np import pandas as pd 一、时序中的基本对象时间序列的概念在日常生活中十分常见，但对于一个具体的时序事件而言，可以从多个时间对象的角度来描述。例如2020年9月7日周一早上8点整需要到教室上课，这个课会在当天早上10点结束，其中包含了哪些时间概念？第一，会出现时间戳（Date times）的概念，即’20

2021-01-10 23:37:08 305

原创 Pandas学习task09分类数据

这是在datawhale学习小组学习pandas的第九章内容，分类数据，以下是学习笔记，仅供参考，不喜勿喷 DataWhale 第九章分类数据 import numpy as np import pandas as pd 一、cat对象 1. cat对象的属性在 pandas 中提供了 category 类型，使用户能够处理分类类型的变量，将一个普通序列转换成分类变量可以使用 astype 方法。 df = pd.read_csv(r'C:\Users\zhoukaiwei\Desktop\joyfu

2021-01-07 23:39:44 257

原创 pandas 学习task08文本数据

这是在datawhale学习小组学习pandas的第八章内容，文本数据，以下是学习笔记，仅供参考，不喜勿喷 DataWhale 第八章文本数据 import numpy as np import pandas as pd 一、str对象 1. str对象的设计意图 str 对象是定义在 Index 或 Series 上的属性，专门用于逐元素处理文本内容，其内部定义了大量方法，因此对一个序列进行文本处理，首先需要获取其 str 对象。在Python标准库中也有 str 模块，为了使用上的便利，有许多函数

2021-01-06 23:23:31 191

原创 pandas学习task07缺失数据

这是在datawhale学习小组学习pandas的第七章内容，缺失数据，以下是学习笔记，仅供参考，不喜勿喷 DataWhale 第七章缺失数据 import numpy as np import pandas as pd 一、缺失值的统计和删除 1. 缺失信息的统计缺失数据可以使用 isna 或 isnull （两个函数没有区别）来查看每个单元格是否缺失，结合 mean 可以计算出每列缺失值的比例： df = pd.read_csv(r'C:\Users\zhoukaiwei\Desktop\joyf

2021-01-03 23:06:43 221

原创 Pandas学习任务1-3

这是在DataWhale学习小组pandas学习中的一个任务，由于作者太菜了，连第一题还在思考中，先把题目放出来吧，大家一块讨论，有思路的可以直接给作者留言，不胜感激。 DataWhale 【任务一】企业收入的多样性【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标： I = − ∑ i p ( x i ) log ⁡ ( p ( x i

2021-01-01 23:49:20 266

原创 pandas学习task06连接

这是在datawhale学习小组学习pandas的第六章内容，连接，以下是学习笔记，仅供参考，不喜勿喷 DataWhale 参考：https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch6.html 第六章连接 import numpy as np import pandas as pd 一、关系型连接值连接 #通过值连接来实现左连接 df1 = pd.DataFrame({'df1_name':['

2020-12-29 23:23:37 189 2

原创 pandas学习task05变形

这是在datawhale学习小组学习pandas的第五章内容，变形，以下是学习笔记，仅供参考，不喜勿喷 DataWhale 参考：https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch5.html 第五章变形 import numpy as np import pandas as pd 一、长宽表的变形一个表中把性别存储在某一个列中，那么它就是关于性别的长表；如果把性别作为列名，列中的元素是某一其他

2020-12-27 22:01:59 419

原创 pandas 学习task04分组

这是在datawhale学习小组学习pandas的第四章内容，分组，以下是学习笔记，仅供参考，不喜勿喷 DataWhale 第四章分组一、分组模式及其对象 1. 分组的一般模式 df.groupby(分组依据)[数据来源].使用操作 #分组的常用形式学生体测的数据集上，如果想要按照性别统计身高中位数 import numpy as np import pandas as pd df = pd.read_csv(r'C:\Users\zhoukaiwei\Desktop\joyful-pandas\da

2020-12-25 21:26:44 320

原创 pandas学习task03索引

一、索引器 1.表的列索引 import numpy as np import pandas as pd df = pd.read_csv(r"C:\Users\zhoukaiwei\Desktop\joyful-pandas\data\learn_pandas.csv", usecols = ['School', 'Grade', 'Name', 'Gender', 'Weight', 'Transfer'])

2020-12-22 23:31:59 291

原创 pandas学习task02 pandas基础

一、文件的读取和写入 1. 文件读取 import numpy as np import pandas as pd df_csv = pd.read_csv(r"C:\Users\zhoukaiwei\Desktop\CSV.csv") df_csv Unnamed: 0 clum1 clum2 clum3 time 0 0 a A

2020-12-20 02:33:17 640 1

qq_36559719的博客