![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
datamining
weilan100
这个作者很懒,什么都没留下…
展开
-
特征工程
1、特征提取设定因变量提取自变量: 因变量与自变量的相关系数 决策树(基于熵)连续值处理为离散值业务逻辑2、缺失值处理平均值业务逻辑统一值模型拟合3、异常值识别1、基本统计量的分析(pandas.dataframe.describe())数量,平均值,最大最小值,四分位值2、箱线图 上界:上四分位+1.5四分位间距...原创 2018-08-01 19:33:04 · 152 阅读 · 0 评论 -
基于负采样的skip-garm的语言模型实现-R
基本思路:已知词w,在文章中统计其上下文u1,u2。。。在负样本集中选取负样本u3、u4。。。词w的词向量与其对应的每个样本向量乘积,利用sigmod函数求得概率估计值。与标记值target的残差求梯度下降,优化输入词向量、权值向量、偏置向量。问题:初始化输入词向量、权值向量、偏置向量时如果值过大,那么wx+b就过大,导致sigmod值区域正负无穷,残差值出现INF值。结果:原创 2017-07-12 18:54:26 · 1052 阅读 · 0 评论 -
线性回归
line model lm1、残差:估计量和观测值Y的差2、最小二乘法是一种求最优解的数学优化技术离差平方和(TSS)最小=》离差平方和 对回归参数求偏导得出回归参数值3、拟合优度:TSS (离差平方和)= ESS (回归平方和)+ RSS(残差平方和)回归平方和:与的差和残差平方和:Y与的查和可决系数 = ESS/TSS(回归平方和在总离差中的比例,越大拟合优...原创 2018-08-05 18:20:04 · 342 阅读 · 0 评论 -
假设检验
数理统计中三大常用统计量分布:卡方分布t分布f分布 参数估计区间估计假设检验原创 2018-08-06 09:30:51 · 305 阅读 · 0 评论 -
常用的统计量
期望方差标准差协方差相关系数原创 2018-07-29 22:49:12 · 6946 阅读 · 0 评论 -
python-决策树
1、应用包:from sklearn import tree2、训练:clf = tree.DecisionTreeClassifier(criterion='entropy')clf.fit(x_train,y_train)''''' 系数反映每个特征的影响力。越大表示该特征在分类中起到的作用越大 '''print(clf.feature_importances_)3...原创 2018-08-01 19:33:12 · 310 阅读 · 0 评论