数据处理
文章平均质量分 56
小果一粒沙
To be brave.
展开
-
pandas使用groupby分组统计求出每组内出现频数最大的值(离散变量 连续变量)
pandas聚合的特征计算原创 2022-12-08 15:44:00 · 1225 阅读 · 1 评论 -
推荐系统中召回步骤(粗糙
讲一下召回的大致流程,粗糙的,以后慢慢细化1,获取数据需要用到的数据:原始数据,有五个场景,全场景、home, hot, rel, chooseECPM数据,可能是需要计算imei, APP_id数据mapping数据,一个index,一个是appidembedding数据,一个index, 一个是软件的编码,与mapping是相对应的2,处理数据,进行筛选主要筛选有以下几步:重复变量空数据曝光数目比较小,需要删去流量的筛选,这会对之后某个模块的调参有影响。一个对照组,一.原创 2021-09-02 18:55:26 · 290 阅读 · 0 评论 -
日照-公积金贷款逾期预测-比赛总结
前言主要是过去一年做事情没有一个系统化的概念,今年就想就此改变一下。先从写笔记开始,将我这学期学习到的东西,参加的比赛,写出来,算是过路有痕。比赛大部分应该不是我自己一个人参加的,分工合作嘛,那我就把自己做的写出来,详细点;了解了一点东西,写下来,以后就可以更加深入学习了。同学做的,写出来,简略一下,不过我也尝试了解一下他们的思想,下次去实现一下。不一次性写完,尽量想写得详细一些。写完的就画勾勾,没写完就继续写,反正养成记录的习惯。(我的碎碎念我写的代码后面也跟着整理出来(就算是辣鸡我也要整理出来!原创 2021-03-03 17:18:12 · 625 阅读 · 5 评论 -
文本分类流程(一)文本分类的大致步骤+数据爬取+数据预处理------毕业论文的纪念
本文主要介绍文本分类的前几个步骤,数据获取+数据清洗下一个模块会开始讲解文本文本数据到数值数据的过渡,将文本数据转化为数值数据,并且提取转化后的特征,降维,输入到文本分类器中进行训练、测试、评估。文本分类的基本步骤:1.数据获取方法:网页爬虫,使用别人的代码或者自己写代码(GitHub上找有没有你需要的)2.数据清洗方法:去重,去除重复的评论。如果数据抓取的好,则可以不用执行这一步...原创 2019-05-25 12:09:30 · 16638 阅读 · 12 评论