综合-机器学习项目
文章平均质量分 88
Sarah ฅʕ•̫͡•ʔฅ
勿忘初心
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
USA gov data from Bitly
数据处理中使用函数解析: json.load()与json.loads()的区别 json.loads() #将json string解析为python dictionary json.load() #将json object解析为python dictionary 简单示例: dictionary默认值设定 my_dict.setdefault('a',[]) #将my...原创 2018-09-15 18:11:52 · 477 阅读 · 0 评论 -
图像搜索 项目总结
一、图像搜索 1、项目介绍原创 2019-05-16 21:40:58 · 150 阅读 · 0 评论 -
经典 金融风控 项目总结
一、金融风控 kaggle 1、项目介绍 国内网络借贷行业的贷款风险数据:5w 信用违约标签:label={1:违约,0:还款} 建模所需的基础与加工字段:feature 相关用户的网络行为原始数据 2、处理过程 数据清洗: 1)缺失值处理 2)离群点剔除 3)文本处理 特征工程: 1)地理信息处理 2)成交时间 3)类别型编码 4)组合特征 特征选择: 用linear训练权重,看出特征的重要度...原创 2019-05-15 21:56:12 · 539 阅读 · 0 评论 -
CTR预估
d原创 2019-05-15 16:54:52 · 224 阅读 · 0 评论 -
自然语言处理 项目总结
一、为一个五金搜索网站构建文本相似度检测系统 1、项目介绍 trainset : 产品id 搜索item 产品item 相似度评分 prodcut_description:产品id 产品介绍 2、使用ML model xgboost 3、系统构建思路 step1:文本预处理(stemmer很重要 in search) stemmer step2:特征工程(自制文本特征) ...原创 2019-05-14 17:32:17 · 590 阅读 · 0 评论 -
2012 Federal Election Commission Database
github地址原创 2018-09-17 13:37:15 · 208 阅读 · 0 评论 -
USDA Food DataBase
函数联想 使用pandas进行数据清洗 numpy中astype()和dtype用法 series.idxmax() #return index of max value series.idxmin() #return index of min value 简单示例: pandas.MultiIndex.from_tuples([(1,’a’),(2,’b’)]) pandas.Mult...原创 2018-09-16 22:55:34 · 658 阅读 · 0 评论 -
US Baby Names
数据分析中使用函数 series.searchsorted() series.searchsorted(value,side='left',sorter=None) #返回series按升序排列,value应插入的位置indice;返回为array; series.values.searchsorted(value) #返回为int indice; 简单示例: merge,concat...原创 2018-09-16 17:33:30 · 457 阅读 · 0 评论 -
MovieLens 1M Dataset
github地址原创 2018-09-15 19:51:30 · 688 阅读 · 0 评论 -
推荐系统 项目总结
一、音乐推荐系统 1、项目介绍 从网易云音乐 抓取 歌单 信息,将每个歌单 看作一个user,每个歌曲看作一个item, user对Item的评分这里简化为只有1,0两种,如果一个歌曲在歌单里,则说明该user(歌单)对该歌曲的评分为1,否则为0。 数据来源:网易云音乐 : 歌单 2、算法介绍 1)“协同过滤”和“矩阵分解(NMF;FM;SVD;PMF;SVD++)”用到的数据形式 均为 (...原创 2019-05-13 15:49:32 · 635 阅读 · 0 评论
分享