Helianthus Lee-CSDN博客

原创心跳信号预测--Task5

模型融合1.简单加权融合:（1）回归（分类概率）：简单加权平均，结果直接融合。还有一些特殊的形式，比如mean平均，median平均。stacking 融合，对于第二层Stacking的模型不宜选取的过于复杂，这样会导致模型在训练集上过拟合，从而使得在测试集上并不能达到很好的效果。（2）分类：投票（Voting)Voting即投票机制，分为软投票和硬投票两种，其原理采用少数服从多数的思想。（3）综合：排序融合(Rank averaging)，log融合2.stacking/ble

2021-03-29 00:28:33 253

原创心跳信号预测--task4

建模与调参：1相关模型：逻辑回归模型决策树模型GBDT模型XGBoost模型LightGBM模型Catboost模型时间序列模型2模型调参：贪心调参网格搜索贝叶斯调参模型调参小总结集成模型内置的cv函数可以较快的进行单一参数的调节，一般可以用来优先确定树模型的迭代次数数据量较大的时候（例如本次项目的数据），网格搜索调参会特别特别慢，不建议尝试集成模型中原生库和sklearn下的库部分参数不一致，需要注意，具体可以参考xgb和lgb的官方API...

2021-03-26 01:05:30 198

原创心跳信号预测--task3

特征工程：1.数据预处理（1）对心电特征（时间序列特征）进行行转列处理，同时为每个心电信号加入时间步特征time（2）将处理后的心电特征加入到训练数据中，同时将训练数据label列单独存储2.特征工程（1）使用 tsfresh 进行时间序列特征构造特征抽取 Tsfresh（TimeSeries Fresh）是一个Python第三方工具包。它可以自动计算大量的时间序列数据的特征。此外，该包还包含了特征重要性评估、特征选择的方法，因此，不管是基于时序数据的分类问题还是回归问题，tsfresh都会

2021-03-22 23:29:00 248

原创心跳信号分类预测--task1

basiline:导入第三方包读取数据数据预处理训练数据/测试数据准备模型训练提交截图：

2021-03-16 22:50:13 197

原创早高峰共享单车潮汐点的群智优化--task1

结果展示：在跑baseline的时候遇到了部分库import报错的问题。解决方法，参考了https://blog.csdn.net/Jinlong_Xu/article/details/73822759

2021-02-20 01:24:04 249

原创作者信息关联-5

作者关联（数据建模任务），对论文作者关系进行建模，统计最常出现的作者关系；1 数据处理步骤将作者列表进行处理，并完成统计。具体步骤如下：将论文第一作者与其他作者（论文非第一作者）构建图；使用图算法统计图中作者与其他作者的联系；2 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见，如交通运输图、旅游图、流程图等。利用图可以描述现实生活中的许多事物，如用点可以表示交叉口，点之间的连线表示路径，

2021-01-25 21:51:20 210

原创论文种类分类-4

论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类学会文本分类的基本方法、TF-IDF等；1 数据处理步骤在原始arxiv论文中论文都有对应的类别，而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成：对论文标题和摘要进行处理；对论文类别进行处理；构建文本分类模型；2 文本分类思路思路1：TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征，使用分类器进行分类，分类器的选择上可以使用SVM、LR、XGboost等思路2：FastTextFastT

2021-01-22 23:06:16 446

原创论文代码统计-3

任务：论文代码统计，统计所有论文出现代码的相关统计。1 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接，所以我们需要从这些字段里面找出代码的链接。1）确定数据出现的位置；2）使用正则表达式完成匹配；3）完成相关的统计；2 正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。普通字符：

2021-01-19 23:47:10 209

原创 TASK2：论文作者统计

论文作者统计，统计所有论文作者出现评率Top10的姓名1 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式，其中每个作者使用逗号进行分隔分，所以需要完成以下步骤：使用逗号对作者进行切分；剔除单个作者中非常规的字符；2 字符串处理在Python中字符串是最常用的数据类型，可以使用引号('或")来创建字符串。Python中所有的字符都使用字符串存储，可以使用方括号来截取字符串，如下实例：In [1]:var1 = 'Hello Datawhale!'var2 =

2021-01-17 00:24:12 339

原创论文数据分析-1

论文数量统计：即统计2019年全年计算机各个方向论文数量。1.数据集介绍id：arXiv ID，可用于访问论文；submitter：论文提交者；authors：论文作者；title：论文标题；comments：论文页数和图表等其他信息；journal-ref：论文发表的期刊的信息；doi：数字对象标识符，https://www.doi.org；report-no：报告编号；categories：论文在 arXiv 系统的所属类别或标签；license：文章的许可证；abstract：

2021-01-14 02:13:59 779 1

原创 Pandas--变形

一、长宽表的变形1.pivotpivot 是一种典型的长表变宽表的函数长变宽三要素：变形后的行索引：index需要转到列索引的列：columns以及这些列和行索引对应的数值：values2.pivot_tablepivot 的使用依赖于唯一性条件，那如果不满足唯一性条件，那么必须通过聚合操作使得相同行列组合对应的多个值变为一个值：pivot_table 来实现，其中的 aggfunc 参数就是使用的聚合函数。此外， pivot_table 具有边际汇总的功能，可以通过设置 margins=

2020-12-27 23:56:28 216

原创分组

一、分组模式及其对象1.一般模式分组操作三要素：分组依据、数据来源、操作及其返回结果。一般模式：df.groupby(分组依据)[数据来源].使用操作2.分组依据的本质根据多个维度进行分组，只需在 groupby 中传入相应列名构成的列表即可。传入列名只是一种简便的记号，事实上等价于传入的是一个或多个列，最后分组的依据来自于数据来源组合的unique值，通过 drop_duplicates 就能知道具体的组类别。3.Groupby对象最终具体做分组操作时，所调用的方法都来自于 pa

2020-12-25 17:28:08 721

原创索引

一、索引器1.表的列索引列索引是最常见的索引形式，一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列，返回值为 Series。如果要取出多个列，则可以通过 [列名组成的列表] ，其返回值为一个 DataFrame。此外，若要取出单列，且列名中不包含空格，则可以用 .列名取出，这和 [列名] 是等价的2.序列的行索引【a】以字符串为索引的 Series1.如果取出单个索引的对应元素，则可以使用 [item] ，若 Series 只有单个值对应，则返回这个标量值，如

2020-12-22 23:56:53 324

原创 pandas基础

一、文件的读取和写入1.文件读取pd.read_csv(’ ‘)pd.read_excel(’ ‘)pd.read_table(’ ')注：header=None表示第一行不作为列名，index_col表示把某一列或几列作为索引，索引的内容将会在第三章进行详述，usecols表示读取列的集合，默认读取所有的列，parse_dates表示需要转化为时间的列，关于时间序列的有关内容将在第十章讲解，nrows表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。2.数据写入df_csv.to

2020-12-19 23:55:36 355 3

原创预备知识

一、Python基础1. 列表推导式与条件赋值[* for i in *] 。其中，第一个 * 为映射函数，其输入为后面 i 指代的内容，第二个 * 表示迭代的对象。value = a if condition else b2.匿名函数与map方法对于列表推导式的匿名函数映射， Python 中提供了 map 函数来完成，它返回的是一个 map 对象，需要通过 list 转为列表3.zip对象与enumerate方法zip函数能够把多个可迭代对象打包成一个元组构成的可迭代对象，它返回了一个 z

2020-12-16 22:10:03 154

原创实践大作业

导入鸢尾属植物数据集，保持文本不变。【知识点：输入和输出】如何导入存在数字和文本的数据集？2. 求出鸢尾属植物萼片长度的平均值、中位数和标准差（第1列，sepallength）【知识点：统计相关】如何计算numpy数组的均值，中位数，标准差？3. 创建一种标准化形式的鸢尾属植物萼片长度，其值正好介于0和1之间，这样最小值为0，最大值为1（第1列，sepallength）。【知识点：统计相关】如何标准化数组？4. 找到鸢尾属植物萼片长度的第5和第95百分位数（第1列，sepallengt.

2020-12-01 23:55:06 218

原创线性代数

线性代数Numpy 定义了 matrix 类型，使用该 matrix 类型创建的是矩阵对象，它们的加减乘除运算缺省采用矩阵方式计算，因此用法和Matlab十分类似。但是由于 NumPy 中同时存在 ndarray 和 matrix 对象，因此用户很容易将两者弄混。这有违 Python 的“显式优于隐式”的原则，因此官方并不推荐在程序中使用 matrix。在这里，我们仍然用 ndarray 来介绍。矩阵和向量积矩阵的定义、矩阵的加法、矩阵的数乘、矩阵的转置与二维数组完全一致，不再进行说明，但矩阵的乘法有

2020-11-29 23:48:13 294

原创统计相关

次序统计计算最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])计算最大值numpy.amax(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])计算极差numpy.ptp(a, axis=None, out=None,

2020-11-27 22:12:33 202

原创随机抽样

次序统计计算最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])Return the minimum of an array or minimum along an axis.计算极差numpy.ptp(a, axis=None, out=None, keepdims=np._NoValue) Range of values (maximum - mi

2020-11-25 23:57:41 259

原创 Numpy输入和输出

输入和输出numpy 二进制文件save()、savez()和load()函数以 numpy 专用的二进制类型（npy、npz）保存和读取数据，这三个函数会自动处理ndim、dtype、shape等信息，使用它们读写数组非常方便，但是save()输出的文件很难与其它语言编写的程序兼容。文本文件savetxt()，loadtxt()和genfromtxt()函数用来存储和读取文本文件（如TXT，CSV等）。genfromtxt()比loadtxt()更加强大，可对缺失数据进行处理。文本格式选项nu

2020-11-23 21:32:08 1004

原创 pip安装python包的一些常见错误及解决方法

错误：xarray 0.15.0 has requirement numpy >=1.15, but you will have numpy 1.14.0 which is incompatible解决：因为不兼容，需要升级numpy包。 pip install -U numpy错误:Could not install packages due to anEnvironmentE...

2020-02-19 21:34:24 6152 2

Christinelee的博客