自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_41358220的博客

12月 11月

原创 pandas 连接学习

本文是DateWhale组队学习Pandas连接部分的学习心得。方向连接之concat在concat中，最常用的有三个参数，它们是axis, join, keys，分别表示拼接方向，连接形式，以及在新表中指示来自于哪一张旧表的名字。这里需要特别注意，join和keys与之前提到的join函数和键的概念没有任何关系。在默认状态下的axis=0，表示纵向拼接多个表，常常用于多个样本的拼接；而axis=1表示横向拼接多个表，常用于多个字段或特征的拼接。例如，纵向合并各表中人的信息：df1 = pd.Da

2020-12-29 12:51:31 234 1

原创 pandas 变形学习

本文是DataWhale组队学习pandas变形部分的学习总结。练习1：美国非法药物数据集现有一份关于美国非法药物的数据集，其中SubstanceName, DrugReports分别指药物名称和报告数量：df =pd.read_csv('../data/drugs.csv').sort_values(['State','COUNTY','SubstanceName'],ignore_index=True)df第一问将数据转为如下的形式：首先利用pivot将DataFrame转为行多级索

2020-12-27 14:19:00 254

原创 pandas 分组学习（利用MovieLens数据集）

本文是DataWhale组队学习pandas的总结。一、分组模式及其对象1. 分组的一般模式想要利用pandas实现分组操作，必须明确三个要素：分组依据、数据来源、操作及其返回结果。同时从充分性的角度来说，如果明确了这三方面，就能确定一个分组操作，从而分组代码的一般模式即：df.groupby(分组依据)[数据来源].使用操作这里利用MovieLens-1M数据集做分析。原始数据集部分展示如下：import numpy as npimport pandas as pd读取文

2020-12-25 12:53:01 345

原创 pandas 索引部分

import numpy as npimport pandas as pd一、索引器1. 表的列索引列索引是最常见的索引形式，一般通过[]来实现。通过[列名]可以从DataFrame中取出相应的列，返回值为Series，例如从表中取出姓名一列：df = pd.read_csv('../data/learn_pandas.csv', usecols = ['School', 'Grade', 'Name', 'Gender', 'Weight', 'Transfer'])df['Name'].h

2020-12-21 17:10:02 260

原创 Matplotlib 绘图第三回

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False一.子图1.使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表，第一个数字为行，第二个为列figsize 参数可以指定整个画布的大小sharex 和

2020-12-20 23:17:32 97

原创 pandas基础

一.文件的读写数据获取地址1.文件的读取pandas可以读取的文件格式有很多，这里主要介绍读取csv, excel, txt文件。df_csv = pd.read_csv('../data/my_csv.csv') # 读取csv文件df_csvdf_txt = pd.read_table('../data/my_table.txt') # 读取txt文件df_txtdf_excel = pd.read_excel('../data/my_excel.xlsx') # 读取exce

2020-12-19 22:03:32 282 2

原创 Matplotlib 绘图第二回

1.绘制2DLinesclass matplotlib.lines.Line2D(xdata, ydata, linewidth=None, linestyle=None, color=None,……)xdata:需要绘制的line中点的在x轴上的取值，若忽略，则默认为range(1,len(ydata)+1)ydata:需要绘制的line中点的在y轴上的取值linewidth:线条的宽度linestyle:线型color:线条的颜色……直接在plot()函数中绘制import matpl

2020-12-18 16:04:57 238

原创 pandas预备知识

一.Python基础1. 列表推导式与条件赋值def my_func(x): return 2*x[my_func(i) for i in range(5)]列表表达式还支持多层嵌套，如下面的例子中第一个for为外层循环，第二个为内层循环：[m+'_'+n for m in ['a', 'b'] for n in ['c', 'd']]除了列表推导式，另一个实用的语法糖是带有if选择的条件赋值，其形式为value = a if condition else b：L = [1, 2

2020-12-16 16:17:43 165 1

原创 Matplotlib初相识

import matplotlib.pyplot as pltimport numpy as npfig, ax = plt.subplots() # 创建一个包含一个axes的figureax.plot([1, 2, 3, 4], [1, 4, 2, 3]) # 绘制图像还可以通过一种更简单的方式绘制图像，matplotlib.pyplot方法能够直接在当前axes上绘制图像，如果用户未指定axes，matplotlib会帮你自动创建一个。所以上面的例子也可以简化为以下这一行代码。pl

2020-12-14 23:36:37 60

原创零基础入门新闻推荐系统（排序）

排序模型通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是：LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到了最

2020-12-05 14:14:16 610 2

原创零基础入门新闻推荐系统（特征工程）

制作特征和标签，转成监督学习问题我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性， words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding特征，比如W2V等用户的设备特征信息上面这些

2020-12-03 21:41:09 274 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

深度遗忘YJ CSDN认证博客专家 CSDN认证企业博客

码龄7年

IP 属地：山东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

28: 原创

53万+: 周排名

106万+: 总排名

1万+: 访问

: 等级

361: 积分

21: 粉丝

25: 获赞

28: 评论

110: 收藏

私信

关注

热门文章

最新评论

零基础入门推荐系统（新闻推荐）
一顿能吃三碗饭206: 大佬源码发一下吧
零基础入门推荐系统（新闻推荐）
anyekongming: 你好，想知道最后的生成结果，评分是怎么评的，就是题目所说的命中是什么意思，如果想自己来评评分的话，应该把article1去哪个文件对应得找
零基础入门推荐系统（新闻推荐）
hello_brucebat: itemcf本质是统计两个item的共同用户数。也就是当一个用户点击了K个items，那么这K个item就两两产生了联系。
零基础入门新闻推荐系统（排序）
婷噜噜: 请问最后友友跑通了吗？
零基础入门推荐系统（新闻推荐）
-五花又-: 想问问为什么计算item相似性用的是点击日志的矩阵？

最新文章

提示

确定要删除当前文章？

取消删除