自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 joyful pandas task11-task

task:水压站点的特征工程df1和df2中分别给出了18年和19年各个站点的数据,其中列中的H0至H23分别代表当天0点至23点;df3中记录了18-19年的每日该地区的天气情况,请完成如下的任务:import pandas as pdimport numpy as npdf1 = pd.read_csv(‘yali18.csv’)df2 = pd.read_csv(‘yali19.csv’)df3 = pd.read_csv(‘qx1819.csv’)通过df1和df2构造df,把时间设为

2021-01-13 22:46:49 90

转载 joyful pandas task10-时序数据

1.时间戳1.Timestamp的构造与属性ts = pd.Timestamp(‘2020/1/1’)ts = pd.Timestamp(‘2020-1-1 08:10:30’)属性:通过year, month, day, hour, min, second可以获取具体的数值。2.Datetime序列的生成1.date_range是一种生成连续间隔时间的一种方法,其重要的参数为start, end, freq, periods,它们分别表示开始时间,结束时间,时间间隔,时间戳个数。pd.dat

2021-01-07 00:03:10 169

转载 jpyful pandas task9-分类数据

1.cat对象1.cat对象的属性1.在pandas中提供了category类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用astype方法。df = pd.read_csv(’…/data/learn_pandas.csv’, usecols = [‘Grade’, ‘Name’, ‘Gender’, ‘Height’, ‘Weight’])s = df.Grade.astype(‘category’)s.head()2.对于一个具体的分类,有两个组成部分,其一为类别的

2021-01-06 23:08:13 114

转载 jouyful pandas task8-文本数据

1.str对象str对象是定义在Index或Series上的属性1.字母转为大写的操作:s.str.upper() # pandas中str对象上的upper方法…2.[]索引器通过[]可以取出某个位置的元素–切片3.string类型2.正则表达式基础正则表达式是一种按照某种正则模式,从左到右匹配字符串中内容的一种工具。1.findall函数例如,在下面的字符串中找出apple:import rere.findall(‘Apple’, ‘Apple! This Is an App

2021-01-06 22:43:49 80

转载 joyful pandas task7-缺失数据

1.缺失数据可以使用isna或isnull1.同时对几个列,检索出全部为缺失或者至少有一个缺失或者没有缺失的行sub_set = df[[‘Height’, ‘Weight’, ‘Transfer’]]df[sub_set.isna().all(1)] # 全部缺失2.df[sub_set.isna().any(1)].head() # 至少有一个缺失3.df[sub_set.notna().all(1)].head() # 没有缺失2.ropna的主要参数为轴方向axis(默认为0,即删除行)

2021-01-03 23:48:21 72

原创 joyful pandas task

代码:import pandas as pdimport numpy as npdf1 = pd.read_csv(‘company.csv’)df2 = pd.read_csv(‘company_data.csv’)income=df2.iloc[:,3]income_sum=income.sum()income_new=[x/income_sum for x in income]I=[y*np.log(abs(y)) for y in income_new]df1.insert(2,.

2021-01-01 23:49:27 108

转载 joyful pandas task6-连接

1.值连接merge函数:1.左连接:df1.merge(df2, on=‘Name’, how=‘left’)2.不同列名:df1.merge(df2, left_on=‘df1_name’, right_on=‘df2_name’, how=‘left’)3.如果两个表中的列出现了重复的列名,那么可以通过suffixes参数指定。df1.merge(df2, on=‘Name’, how=‘left’, suffixes=[’_Chinese’,’_Math’])4.在某些时候出现重复元素是

2020-12-29 23:13:07 70

转载 joyful pandas task5-变形

1.按列创建数据pd.DataFrame({‘Gender’:[‘F’,‘F’,‘M’,‘M’], ‘Height’:[163, 160, 175, 180]})2.pivot_table作用:把长表转为宽表df.pivot_table(index = ‘Name’,columns = ‘Subject’,values = ‘Grade’,aggfunc = lambda x:x.mean())3.wide_to_long函数作用:把宽表转为长表pd.wide_to_long(df,s

2020-12-27 22:20:45 95

转载 joyful pandas task4-分组

1.分组的一般模式想要实现分组操作,必须明确三个要素: 分组依据 、 数据来源 、 操作及其返回结果 。code: df.groupby(分组依据)[数据来源].使用操作eg:df.groupby(‘Gender’)[‘Longevity’].mean()2.Groupby对象1.通过ngroups属性,可以访问分为了多少组:gb.ngroups2.通过get_group方法可以直接获取所在组对应的行,此时必须知道组的具体名字:gb.get_group((‘Fudan University’

2020-12-25 22:34:57 68

转载 joyful pandas task3-索引

(1)loc索引1.选择多行df_demo.loc[[‘Qiang Sun’,‘Quan Zhao’], [‘School’,‘Gender’]]df_demo.loc[‘Gaojuan You’:‘Gaoqiang Qian’, ‘School’:‘Gender’]2.条件筛选df_demo.loc[df_demo.Weight>70].head()df_demo.loc[condition_1 | condition_2]3.前面所提到的传入元素列表,也可以通过isin方法返回的布尔

2020-12-22 21:20:02 97

转载 joyful pandas task2-pandas预备知识

pandas读入文件方式csv文件:df_csv = pd.read_csv(’…/data/my_csv.csv’)txt文件:df_txt = pd.read_table(’…/data/my_table.txt’)Excel文件:df_excel = pd.read_excel(’…/data/my_excel.xlsx’)数据写入df_csv.to_csv(’…/data/my_csv_saved.csv’, index=False)df_excel.to_excel(’…/data/m

2020-12-19 22:17:56 113 1

原创 joyful pandas task1-预备知识

1.代码:#查看pandas版本号import pandas as pdprint(pd.version)结果:1.1.42.L = []for i in range(5):L.append(my_func(i))此处预定义空的列表,不定义会报错,因为此时系统不知道L指向哪一块内存地址。那么预定义空的L,系统会分配多少内存呢?具体又指向那个地址呢?代码:print(sys.getsizeof(y))print(id(y))结果:641552484164104分析:64:

2020-12-16 17:09:56 125 1

转载 天池入门赛- 新闻推荐-task5-排序模型+特征融合

通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:  1. LGB的排序模型  2. LGB的分类模型  3. 深度学习的分类

2020-12-06 21:20:04 150

转载 天池入门赛- 新闻推荐-task4-特征工程

特征工程和数据清洗转换是比赛中至关重要的一块, 因为数据和特征决定了机器学习的上限,而算法和模型只是逼近这个上限而已,所以特征工程的好坏往往决定着最后的结果,特征工程可以一步增强数据的表达能力,通过构造新特征,我们可以挖掘出数据的更多信息,使得数据的表达能力进一步放大。在新闻推荐系统这个赛事背景下,有以下特征可以直接被利用:1.文章的自身特征,category_id 表示文章的类型,created_as_ts表示文章建立的时间,关系着文章的时效性,words_counts表示文章的字数。2.文章的em

2020-12-03 21:12:59 126

转载 天池入门赛- 新闻推荐-task2-数据分析

#数据分析目的数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。#数据分析##数据浏览-训练集为例训练集用户点击日志trn_click = trn_click.merge(item_df, how=‘left’, on=[‘click_article_id’])用户点

2020-11-27 20:41:52 109

转载 天池入门赛- 新闻推荐-task1-baseline

#赛题及数据简介此次比赛是新闻推荐场景下的用户行为预测挑战赛, 该赛题是以新闻APP中的新闻推荐为背景, 数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章, 这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景, 解决实际问题。#赛题理解把该预测问题转成一个监督学习的问题(特征+标签),

2020-11-25 17:17:37 237

转载 第三次打卡

批量归一化原理1.对全连接层做批量归一化位置:全连接层中的仿射变换和激活函数之间。2.对卷积层做批量归⼀化位置:卷积计算之后、应⽤激活函数之前。如果卷积计算输出多个通道,我们需要对这些通道的输出分别做批量归一化,且每个通道都拥有独立的拉伸和偏移参数。 计算:对单通道,batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。3....

2020-02-25 16:38:35 227

转载 第二次打卡

过拟合、欠拟合及其解决方案过拟合和欠拟合欠拟合(underfitting):模型无法得到较低的训练误差。过拟合(overfitting:模型的训练误差远小于它在测试数据集上的误差。训练误差与泛化误差训练误差(training error):指模型在训练数据集上表现出的误差。泛化误差(generalization error):指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过...

2020-02-18 17:52:02 320

转载 第一次打卡

线性回归线性回归假设输出与各个输⼊之间是线性关系,模型为:y^=x*w+b。其中y^=[y1,y2...yn].T是标签,w=[w1,w2...wn]是权重,x=[x1,x2...xn].T是特征,b是偏差。平均损失函数L(w,b)定义为:y为预测值,y^为真实值。优化函数 - 随机梯度下降:先选取一组模型参数的初始值,如随机选取;接下来对参数进行多次迭代,使每次迭代都可能降低损失函数的...

2020-02-14 16:36:14 319

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除