自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 pandas 连接学习

本文是DateWhale组队学习Pandas连接部分的学习心得。方向连接之concat在concat中,最常用的有三个参数,它们是axis, join, keys,分别表示拼接方向,连接形式,以及在新表中指示来自于哪一张旧表的名字。这里需要特别注意,join和keys与之前提到的join函数和键的概念没有任何关系。在默认状态下的axis=0,表示纵向拼接多个表,常常用于多个样本的拼接;而axis=1表示横向拼接多个表,常用于多个字段或特征的拼接。例如,纵向合并各表中人的信息:df1 = pd.Da

2020-12-29 12:51:31 234 1

原创 pandas 变形学习

本文是DataWhale组队学习pandas变形部分的学习总结。练习1:美国非法药物数据集现有一份关于美国非法药物的数据集,其中SubstanceName, DrugReports分别指药物名称和报告数量:df =pd.read_csv('../data/drugs.csv').sort_values(['State','COUNTY','SubstanceName'],ignore_index=True)df第一问 将数据转为如下的形式:首先利用pivot将DataFrame转为行多级索

2020-12-27 14:19:00 254

原创 pandas 分组学习(利用MovieLens数据集)

本文是DataWhale组队学习pandas的总结。一、分组模式及其对象1. 分组的一般模式想要利用pandas实现分组操作,必须明确三个要素: 分组依据 、 数据来源 、 操作及其返回结果 。同时从充分性的角度来说,如果明确了这三方面,就能确定一个分组操作,从而分组代码的一般模式即:df.groupby(分组依据)[数据来源].使用操作这里利用MovieLens-1M数据集做分析。原始数据集部分展示如下:import numpy as npimport pandas as pd读取文

2020-12-25 12:53:01 345

原创 pandas 索引部分

import numpy as npimport pandas as pd一、索引器1. 表的列索引列索引是最常见的索引形式,一般通过[]来实现。通过[列名]可以从DataFrame中取出相应的列,返回值为Series,例如从表中取出姓名一列:df = pd.read_csv('../data/learn_pandas.csv', usecols = ['School', 'Grade', 'Name', 'Gender', 'Weight', 'Transfer'])df['Name'].h

2020-12-21 17:10:02 260

原创 Matplotlib 绘图第三回

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False一.子图1.使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表,第一个数字为行,第二个为列figsize 参数可以指定整个画布的大小sharex 和

2020-12-20 23:17:32 97

原创 pandas基础

一.文件的读写数据获取地址1.文件的读取pandas可以读取的文件格式有很多,这里主要介绍读取csv, excel, txt文件。df_csv = pd.read_csv('../data/my_csv.csv') # 读取csv文件df_csvdf_txt = pd.read_table('../data/my_table.txt') # 读取txt文件df_txtdf_excel = pd.read_excel('../data/my_excel.xlsx') # 读取exce

2020-12-19 22:03:32 282 2

原创 Matplotlib 绘图第二回

1.绘制2DLinesclass matplotlib.lines.Line2D(xdata, ydata, linewidth=None, linestyle=None, color=None,……)xdata:需要绘制的line中点的在x轴上的取值,若忽略,则默认为range(1,len(ydata)+1)ydata:需要绘制的line中点的在y轴上的取值linewidth:线条的宽度linestyle:线型color:线条的颜色……直接在plot()函数中绘制import matpl

2020-12-18 16:04:57 238

原创 pandas预备知识

一.Python基础1. 列表推导式与条件赋值def my_func(x): return 2*x[my_func(i) for i in range(5)]列表表达式还支持多层嵌套,如下面的例子中第一个for为外层循环,第二个为内层循环:[m+'_'+n for m in ['a', 'b'] for n in ['c', 'd']]除了列表推导式,另一个实用的语法糖是带有if选择的条件赋值,其形式为value = a if condition else b:L = [1, 2

2020-12-16 16:17:43 165 1

原创 Matplotlib初相识

import matplotlib.pyplot as pltimport numpy as npfig, ax = plt.subplots() # 创建一个包含一个axes的figureax.plot([1, 2, 3, 4], [1, 4, 2, 3]) # 绘制图像还可以通过一种更简单的方式绘制图像,matplotlib.pyplot方法能够直接在当前axes上绘制图像,如果用户未指定axes,matplotlib会帮你自动创建一个。所以上面的例子也可以简化为以下这一行代码。pl

2020-12-14 23:36:37 60

原创 零基础入门新闻推荐系统(排序)

排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到了最

2020-12-05 14:14:16 610 2

原创 零基础入门新闻推荐系统(特征工程)

制作特征和标签, 转成监督学习问题我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等用户的设备特征信息上面这些

2020-12-03 21:41:09 274 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除