qq_41768189-CSDN博客

原创 joyful pandas task11-task

task:水压站点的特征工程df1和df2中分别给出了18年和19年各个站点的数据，其中列中的H0至H23分别代表当天0点至23点；df3中记录了18-19年的每日该地区的天气情况，请完成如下的任务：import pandas as pdimport numpy as npdf1 = pd.read_csv(‘yali18.csv’)df2 = pd.read_csv(‘yali19.csv’)df3 = pd.read_csv(‘qx1819.csv’)通过df1和df2构造df，把时间设为

2021-01-13 22:46:49 90

转载 joyful pandas task10-时序数据

1.时间戳1.Timestamp的构造与属性ts = pd.Timestamp(‘2020/1/1’)ts = pd.Timestamp(‘2020-1-1 08:10:30’)属性：通过year, month, day, hour, min, second可以获取具体的数值。2.Datetime序列的生成1.date_range是一种生成连续间隔时间的一种方法，其重要的参数为start, end, freq, periods，它们分别表示开始时间，结束时间，时间间隔，时间戳个数。pd.dat

2021-01-07 00:03:10 169

转载 jpyful pandas task9-分类数据

1.cat对象1.cat对象的属性1.在pandas中提供了category类型，使用户能够处理分类类型的变量，将一个普通序列转换成分类变量可以使用astype方法。df = pd.read_csv(’…/data/learn_pandas.csv’, usecols = [‘Grade’, ‘Name’, ‘Gender’, ‘Height’, ‘Weight’])s = df.Grade.astype(‘category’)s.head()2.对于一个具体的分类，有两个组成部分，其一为类别的

2021-01-06 23:08:13 114

转载 jouyful pandas task8-文本数据

1.str对象str对象是定义在Index或Series上的属性1.字母转为大写的操作:s.str.upper() # pandas中str对象上的upper方法…2.[]索引器通过[]可以取出某个位置的元素–切片3.string类型2.正则表达式基础正则表达式是一种按照某种正则模式，从左到右匹配字符串中内容的一种工具。1.findall函数例如，在下面的字符串中找出apple：import rere.findall(‘Apple’, ‘Apple! This Is an App

2021-01-06 22:43:49 80

转载 joyful pandas task7-缺失数据

1.缺失数据可以使用isna或isnull1.同时对几个列，检索出全部为缺失或者至少有一个缺失或者没有缺失的行sub_set = df[[‘Height’, ‘Weight’, ‘Transfer’]]df[sub_set.isna().all(1)] # 全部缺失2.df[sub_set.isna().any(1)].head() # 至少有一个缺失3.df[sub_set.notna().all(1)].head() # 没有缺失2.ropna的主要参数为轴方向axis（默认为0，即删除行）

2021-01-03 23:48:21 72

原创 joyful pandas task

代码：import pandas as pdimport numpy as npdf1 = pd.read_csv(‘company.csv’)df2 = pd.read_csv(‘company_data.csv’)income=df2.iloc[:,3]income_sum=income.sum()income_new=[x/income_sum for x in income]I=[y*np.log(abs(y)) for y in income_new]df1.insert(2,.

2021-01-01 23:49:27 108

转载 joyful pandas task6-连接

1.值连接merge函数:1.左连接：df1.merge(df2, on=‘Name’, how=‘left’)2.不同列名：df1.merge(df2, left_on=‘df1_name’, right_on=‘df2_name’, how=‘left’)3.如果两个表中的列出现了重复的列名，那么可以通过suffixes参数指定。df1.merge(df2, on=‘Name’, how=‘left’, suffixes=[’_Chinese’,’_Math’])4.在某些时候出现重复元素是

2020-12-29 23:13:07 70

转载 joyful pandas task5-变形

1.按列创建数据pd.DataFrame({‘Gender’:[‘F’,‘F’,‘M’,‘M’], ‘Height’:[163, 160, 175, 180]})2.pivot_table作用：把长表转为宽表df.pivot_table(index = ‘Name’,columns = ‘Subject’,values = ‘Grade’,aggfunc = lambda x:x.mean())3.wide_to_long函数作用：把宽表转为长表pd.wide_to_long(df,s

2020-12-27 22:20:45 95

转载 joyful pandas task4-分组

1.分组的一般模式想要实现分组操作，必须明确三个要素：分组依据、数据来源、操作及其返回结果。code: df.groupby(分组依据)[数据来源].使用操作eg:df.groupby(‘Gender’)[‘Longevity’].mean()2.Groupby对象1.通过ngroups属性，可以访问分为了多少组：gb.ngroups2.通过get_group方法可以直接获取所在组对应的行，此时必须知道组的具体名字：gb.get_group((‘Fudan University’

2020-12-25 22:34:57 68

转载 joyful pandas task3-索引

（1）loc索引1.选择多行df_demo.loc[[‘Qiang Sun’,‘Quan Zhao’], [‘School’,‘Gender’]]df_demo.loc[‘Gaojuan You’:‘Gaoqiang Qian’, ‘School’:‘Gender’]2.条件筛选df_demo.loc[df_demo.Weight>70].head()df_demo.loc[condition_1 | condition_2]3.前面所提到的传入元素列表，也可以通过isin方法返回的布尔

2020-12-22 21:20:02 97

转载 joyful pandas task2-pandas预备知识

pandas读入文件方式csv文件：df_csv = pd.read_csv(’…/data/my_csv.csv’)txt文件：df_txt = pd.read_table(’…/data/my_table.txt’)Excel文件：df_excel = pd.read_excel(’…/data/my_excel.xlsx’)数据写入df_csv.to_csv(’…/data/my_csv_saved.csv’, index=False)df_excel.to_excel(’…/data/m

2020-12-19 22:17:56 113 1

原创 joyful pandas task1-预备知识

1.代码：#查看pandas版本号import pandas as pdprint(pd.version)结果：1.1.42.L = []for i in range(5):L.append(my_func(i))此处预定义空的列表，不定义会报错，因为此时系统不知道L指向哪一块内存地址。那么预定义空的L,系统会分配多少内存呢？具体又指向那个地址呢？代码：print(sys.getsizeof(y))print(id(y))结果：641552484164104分析：64：

2020-12-16 17:09:56 125 1

转载天池入门赛- 新闻推荐-task5-排序模型+特征融合

通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是： 1. LGB的排序模型 2. LGB的分类模型 3. 深度学习的分类

2020-12-06 21:20:04 150

转载天池入门赛- 新闻推荐-task4-特征工程

特征工程和数据清洗转换是比赛中至关重要的一块，因为数据和特征决定了机器学习的上限，而算法和模型只是逼近这个上限而已，所以特征工程的好坏往往决定着最后的结果，特征工程可以一步增强数据的表达能力，通过构造新特征，我们可以挖掘出数据的更多信息，使得数据的表达能力进一步放大。在新闻推荐系统这个赛事背景下，有以下特征可以直接被利用：1.文章的自身特征，category_id 表示文章的类型，created_as_ts表示文章建立的时间，关系着文章的时效性，words_counts表示文章的字数。2.文章的em

2020-12-03 21:12:59 126

qq_41768189的博客