自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Yolov5-6.0官方源代码骨干解析,并使用TensorRT加速推理,最后封装成API

Yolov5-6.0官方源代码骨干解析,并使用TensorRT加速推理,最后封装成API

2023-03-13 14:47:27 2605 1

原创 Spark Sql数据分析(三)

Sql数据分析实战案例

2023-02-24 17:43:24 344

原创 Spark SQL数据处理与数据分析(二)

spark 电影数据分析,多个问题,层层递进。

2023-02-23 15:32:39 484

原创 Spark SQL数据处理(一)

通过Spark Dataframe API和Sql两种语句处理豆瓣电影数据集,该数据包含五个表格:movies.csv、person.csv、users.csv、comments.csv、ratings.csv。对每个表格进行单独简单的清理,最后写入mysql数据库中总的数据处理步骤有:删除多余的列,更改列的数据类型,存入mysql数据库。

2023-02-18 12:46:32 758

原创 python爬虫爬取猫眼电影排行Top100

import jsonimport timeimport requestsimport redef get_one_page(url): # cookie会随着时间变动,因为网站有滑动验证码 headres = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.

2021-12-30 10:31:25 1345 2

原创 python爬虫基础库应用requests

基础格式import requests'''Get 请求处理requests.get(url, params=None, **kwargs)params : 参数字典'''# paramsdata = { 'name':'xxx', 'header':"xxx", 'cookies':"xxx"}# 发送请求response = requests.get(url,params=data)if(response.status_code == 200):

2021-12-28 11:36:37 378

原创 python爬虫基础使用urllib

# urllib基础操作# 爬虫基础-Urllib发送请求import urllib.requestimport urllib.parse# 目标网址(一个竞赛网址)url = 'https://www.datafountain.cn/competitions'# 通过request配置请求参数'''urllib. request. Request ( url, data=None, headers={}, origin_req_host=None, unverifiable=Fal

2021-12-27 19:52:42 314

原创 协同过滤的改进思路(论文向)

文章目录

2021-11-30 16:09:29 2728

转载 天池零基础入门推荐系统新闻推荐之特征工程03

文章目录制作特征和标签, 转成监督学习历史特征拼接新特征拼接制作特征和标签, 转成监督学习  基于召回的原来特征和新构造的特征拼接在一起,构造成一个监督数据集,目的是预测最后一次点击的文章。  新构造的特征需要结合用户的历史点击文章信息,所以可以想到大概四方面:候选item与最后几次点击的相似性特征(embedding内积) — 这个直接关联用户历史行为候选item与最后几次点击的相似性特征的统计特征 — 统计特征可以减少一些波动和异常候选item与最后几次点击文章的字数差的特征 — 可以通过

2021-11-20 17:00:32 228

转载 天池-零基础入门推荐系统新闻推荐之多路召回02

目录什么TM的是召回debug模式的数据加载召回策略罗列各召回路径的数据加载各路径召回召回路径融合召回什么TM的是召回先来看推荐系统架构图对于多路召回   召回层是对原始的,大规模的数据,通过简单的特征与模型进行粗排,降低数据的规模而不失主要数据信息,返回待排序的候选集。多路召回每条路径可以采用不同特征与算法模型,路径之间是独立的。召回层是实际工程的产物,在实际生产中也会有相适应算法模型。最后在导入排序层时,可以分配不同的权重进行路径融合。  本新闻推荐数据总共有25万行之多,对于建立召回层

2021-11-20 15:40:09 375

原创 天池-零基础入门推荐系统新闻推荐之数据分析01

主要目录赛题+数据理解user_id 用户id赛题背景数据说明数据探索特征工程模型预测数据来源:天池-零基础入门推荐系统数据-数据需要在论坛里面找赛题+数据理解user_id 用户id赛题背景赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即预测用户的最后一次点击的新闻文章。数据说明train_click_log.csv:训练集用户点击日志testA_click_log.csv:测试集用户点击日志articles.csv:新闻文章信

2021-11-17 16:09:23 1486 1

原创 推荐模型GBDT+LR从零到一的实现

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2021-11-15 12:48:08 645

原创 协同过滤与矩阵分解推荐系统的实现

文章目录生成用户-物品共现矩阵UserCFItemCF基于梯度下降的矩阵分解生成用户-物品共现矩阵UserCF主要步骤:计算用户的相似度,获得top-K个相似用户根据Top-K中的用户有待预测用户没有的物品,计算待预测用户与该物品的相似度排序,最后获取TOP-N的推荐列表ItemCF计算两两物品之间的相似度,生成N * N的的相似度矩阵获取特定用户行为数据中的正反馈物品列表根据物品相似矩阵,找出正反馈物品列表中的每一个物品的相似Top-k个物品。总体排序去重,最后得出Top-N的

2021-11-12 22:12:52 1439

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除