自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 电商促销项目复盘

分析流程:1、总体运营指标2、从价格区间找出表现不好的产品,优化商品结构3、从折扣区间来找出表现不好的产品,优化商品结构import pandas as pdimport numpy as npimport warningswarnings.filterwarnings('ignore')此次分析的目标:    评估每次促销活动的结果,并根据情况优化商品结构,以便让自己的商品卖的更好。1、读取各部分数据集import sqlalchemy

2021-03-29 15:33:03 470 3

原创 task05 HeartbeatClassification 模型融合

import pandas as pdimport numpy as npimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom tsfresh import extract_features, select_featureswarnings.filterwarnings('ignore')%matplotlib inlineimport itertoolsim

2021-03-28 23:25:25 145

原创 mysql45 练习答案

mysql45 练习答案记录一下自己对题目的理解思路还有做法– mysql45练习数据数据表–1.学生表 Student(SId,Sname,Sage,Ssex)SId 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别–2.课程表 Course(CId,Cname,TId)CId 课程编号,Cname 课程名称,TId 教师编号–3.教师表 Teacher(TId,Tname)TId 教师编号,Tname 教师姓名–4.成绩表 SC(SId,CId,score)

2021-03-28 16:48:35 155 1

原创 pandas iloc与loc的用法与区别

pandasiloc与loc的用法与区别iloc根据位置信息取索引,所以其参数必为intloc根据索引名取索引import pandas as pdimport numpy as npdf1 = pd.DataFrame(np.random.rand(25).reshape([5, 5]), index=['A','B','C','D','E'], columns=['c1', 'c2', 'c3', 'c4', 'c5'])df2 = pd.DataFrame(np.random.rand(

2021-03-28 16:47:37 127

原创 task4 模型调参

跑完之后反向上分了,还不太懂贝叶斯调参,先跑通了,明天再看import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.dataframe_functions import imputeimport lightgbm as lgbfrom sklearn.model_selection i

2021-03-25 21:36:44 126

原创 pandas 第十章 时序数据

第十章 时序数据import numpy as npimport pandas as pd一、时序中的基本对象时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描述。例如2020年9月7日周一早上8点整需要到教室上课,这个课会在当天早上10点结束,其中包含了哪些时间概念?第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在panda

2021-03-22 11:33:04 594

原创 task3 HeartbeatClassification trfresh 特征提取

主要是利用tsfresh对数据做了处理,依旧使用了beseline中的lgb模型数据处理import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.dataframe_functions import imputeimport lightgbm as lgbfrom sklearn.m

2021-03-21 21:13:46 190

原创 pandas第九章 分类数据

第九章 分类数据import numpy as npimport pandas as pd一、cat对象1. cat对象的属性在pandas中提供了category类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用astype方法。df = pd.read_csv('../data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'])s = df.Grade.astyp

2021-03-21 10:27:13 317

原创 pandas 第八章 文本数据

第八章 文本数据import numpy as npimport pandas as pd一、str对象1. str对象的设计意图str对象是定义在Index或Series上的属性,专门用于处理每个元素的文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其str对象。在Python标准库中也有str模块,为了使用上的便利,有许多函数的用法pandas照搬了它的设计,例如字母转为大写的操作:var = 'abcd'str.upper(var) # Python内置str模

2021-03-20 10:47:54 232

原创 pandas 第七章 缺失数据

第七章 缺失数据import numpy as npimport pandas as pd一、缺失值的统计和删除1. 缺失信息的统计缺失数据可以使用isna或isnull(两个函数没有区别)来查看每个单元格是否缺失,结合mean可以计算出每列缺失值的比例:df = pd.read_csv('../data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer'])df.is

2021-03-19 14:51:10 230

原创 pandas 第六章 连接

第六章 连接import numpy as npimport pandas as pd一、关系型连接1. 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照姓名\color{red}{姓名}姓名和班级\color{red}{班级}班级连接成总的成绩表,又例如对企业员工的各类信息表按照员工ID号\color{red}{员工ID号}员工ID号进行连接汇总。由此可以看出,在关系型连接中,键\color{red}{键}键是十分重要的,往往用on参

2021-03-19 14:49:29 128

原创 pandas 第五章 变形

第五章 变形import numpy as npimport pandas as pd一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:pd.DataFrame({'Gender':['F','F','M','M'], 'Height':[163, 160, 175, 180]}) #

2021-03-19 14:48:57 110

原创 pandas 第四章 分组

第四章 分组import numpy as npimport pandas as pd一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据性别\color{#FF0000}{性别}性别分组,统计全国人口寿命\color{#00FF00}{寿命}寿命的平均值\color{#0000FF}{平均值}平均值依据季节\color{#FF0000}{季节}季节分组,对每一个季节的温度\color{#00FF00}{温度}温度进行组内标准化\color{#0000FF}

2021-03-19 14:48:08 228

原创 pandas 第三章 索引

第三章 索引import numpy as npimport pandas as pd一、索引器1. 表的列索引列索引是最常见的索引形式,一般通过[]来实现。通过[列名]可以从DataFrame中取出相应的列,返回值为Series,例如从表中取出姓名一列:df = pd.read_csv('../data/learn_pandas.csv', usecols = ['School', 'Grade', 'Name', 'Gender', 'Weight', 'Transfer'])df['N

2021-03-19 14:46:54 554

原创 pandas 第二章 pandas基础

第二章 pandas基础import numpy as npimport pandas as pdimport xlrd在开始学习前,请保证pandas的版本号不低于如下所示的版本,否则请务必升级!请确认已经安装了xlrd, xlwt, openpyxl这三个包,其中xlrd版本不得高于2.0.0。pd.__version__'1.2.3'xlrd.__version__'2.0.1'一、文件的读取和写入1. 文件读取pandas可以读取的文件格式有很多,这里主要介绍读取cs

2021-03-19 14:44:35 675

原创 pandas 第一章 预备知识

第一章 预备知识一、Python基础1. 列表推导式与条件赋值在生成一个数字序列的时候,在Python中可以如下写出:L = []def my_func(x): return 2*xfor i in range(5): L.append(my_func(i))L[0, 2, 4, 6, 8]事实上可以利用列表推导式进行写法上的简化:[* for i in *]。其中,第一个*为映射函数,其输入为后面i指代的内容,第二个*表示迭代的对象。[my_func(i) for

2021-03-19 14:38:01 124

原创 Task2 HeartbeatClassification-EDA-数据探索性分析

Task 2 数据分析Tip: 此部分为零基础入门数据挖掘的 Task2 EDA-数据探索性分析 部分,带你来了解数据,熟悉数据,和数据做朋友,欢迎大家后续多多交流。赛题:心电图心跳信号多分类预测2.1 EDA 目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让

2021-03-18 18:12:13 154 2

原创 task01 HeartbeatClassification-数据挖掘

零基础入门数据挖掘-心跳信号分类预测baseline导入第三方包import osimport gcimport mathimport pandas as pdimport numpy as npimport lightgbm as lgbimport xgboost as xgbfrom catboost import CatBoostRegressorfrom sklearn.linear_model import SGDRegressor, LinearRegression,

2021-03-15 20:19:28 211

原创 Task5 作者信息关联

任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图

2021-01-25 21:41:32 66

原创 Task4 论文种类分类

任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可

2021-01-22 14:56:10 82

原创 Task3 论文代码统计

任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;具体代码实现以及讲解首先我们来统计论文页数,也就是在comments字段中抽取pages和figures和个数,首先完成

2021-01-17 10:22:04 105

原创 Task2 论文作者统计

任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\\'azs, E. L. Berger, P. M. Na

2021-01-15 10:51:34 176 1

原创 Task1 论文数据统计

任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目数据集介绍数据集来源:数据集链接;数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者;title:论文标题;comments:论文页数和图表等其他信息;jou

2021-01-13 21:26:03 178

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除