- 博客(9)
- 资源 (2)
- 收藏
- 关注
原创 京东购买意向预测(三)特征工程
特征工程用户基本特征:获取基本的用户特征,基于用户本身属性多为类别特征的特点,对age,sex,usr_lv_cd进行独热编码操作,对于用户注册时间暂时不处理,商品基本特征:根据商品文件获取基本的特征 针对属性a1,a2,a3进行独热编码 商品类别和品牌直接作为特征??评论特征:分时间段,?? 对评论数进行独热编码: 0表示无评论,1表示有1条评论,2表示有2-10条评论...
2019-11-29 23:58:45 1143
原创 离散型数据编码
对比LabelEncoder 和OneHot编码:LabelEncoder编码:from sklearn import preprocessingimport pandas as pddf = pd.DataFrame([ [-1 , 'A'], [2 , 'B'], [1 , 'A']])df.colu...
2019-11-28 19:03:52 719
原创 京东购买意向预测(二)数据分析
(2)- 数据探索接下来就是数据的初步分析。# 导入相关包import pandas as pdimport numpy as npfrom collections import Counter# 导入相关包%matplotlib inline# 绘图包import matplotlibimport matplotlib.pyplot as plt# 定义文件...
2019-11-28 16:36:52 1670
原创 MYSQL的COMMIT和ROLLBACK使用讲解
一. 从功能上划分,SQL 语言可以分为DDL,DML和DCL三大类。1. DDL(Data Definition Language) (隐式提交)数据定义语言,用于定义和管理 SQL数据库中的所有对象的语言 ;create---创建表alter---修改表drop---删除表2. DML(Data Manipulation Language) (除select外 ...
2019-11-23 12:10:35 3988
原创 样本数据的真实值为什么需要做中心化处理
假设下面的七个点是原始数据,不做中心化需要用 一维的线性回归:y=kx+b 拟合得到红线,红线更容易被一些离群点影响,而产生偏差,而绿线更稳定一些,因为绿线是通过固定点的直线 中心化之后,假设改为,y=kx ,只优化k就可以得到绿线。 当数据量很大时,这两条线会趋于平行,也就等价了,但是在小数据量的时候还是做中心化的效果更好一点。基于以上几点对样本数据做中心化效果会更好,那去中心化 到底...
2019-11-18 08:40:29 4578
原创 LDA模型介绍
主题模型主题模型就是利用大量已知的P(w|d)信息,训练出P(c|d) 和P(w|c)。LDA模型LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题 和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“文章以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”...
2019-11-13 15:48:24 23940 2
原创 概率图模型简介
概率图模型分为贝叶斯网络和马尔可夫网络两大类。贝叶斯网络可以用一个有向图结构表示,马尔可夫网络可以表示成一个无向图的网络结构。概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型。一、朴素贝叶斯算法 (简单)根据应用场景不同可以分为3个分类算法:GaussianNB,MultinomialNB和BernoulliNB。Gau...
2019-11-07 16:02:36 530
原创 GBDT常用损失函数
分类算法的损失函数:指数损失函数 对数损失函数: 二元分类的对数函数 多元分类的对数函数回归算法的损失函数:均方损失函数 绝对值损失函数 Huber损失函数 分位数损失函数还需要好好整理一下,常用算法的 损失函数做到随时都能写出来参考:https://www.cnblo...
2019-11-03 18:03:26 10429 2
2010年山东省大学生电子设计竞赛本课组A、B题
2013-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人