数据挖掘
数据挖掘学习知识
水木流年追梦
清华大学计算机研究生,专研算法工程
展开
-
威斯康星大学乳腺癌肿瘤数据预测分类代码讲解
原创 2019-04-15 13:25:01 · 4091 阅读 · 0 评论 -
sklearn中的Linear_model的score函数讲解
注意这里的X是test集中的属性,y是test集中的标签(而不是预测出的结果!!!)原创 2019-04-15 13:13:24 · 15577 阅读 · 0 评论 -
sklearn中的train_test_split函数
train_test_split函数用于将数据集随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)参数解释:t...原创 2019-04-15 12:03:41 · 789 阅读 · 0 评论 -
数据挖掘之数据预处理
为了解决毕设,还是要学习一个数据预处理的知识。数据清洗 把逻辑上明显不对的数据样本人为地去除 把缺失过多的字段去除 解决过拟合 增大样本量 增加正则化 数据采样 保证正负样本的均衡性,也就是正负样本比例不可太大,如果样本不均衡,比如10:1,可以把每一份的正样本与负样本形成分类器,最后进行bagging。 特征处理 one-hot编码,比如颜色属性包括红黄蓝,...原创 2019-04-05 16:01:42 · 776 阅读 · 0 评论 -
开发者入门必读:最值得看的十大机器学习公开课
[转]http://www.leiphone.com/news/201701/0milWCyQO4ZbBvuW.html导语:入门机器学习不知道从哪着手?看这篇就够了。在当下的机器学习热潮,人才匮乏十分显著。截至目前,国内开设人工智能(AI)专业的高校不多,相当多的开发者是跨界入门,需要自学大量知识并摸索。因而优质的学习资源至关重要。因此,雷锋网搜集了全世界范围内最受欢迎的机器...转载 2019-04-06 13:39:07 · 539 阅读 · 2 评论 -
数据挖掘之自然语言处理
NLTK是python上著名的自然语言处理库,自带语料库、词性分类库、自带分类、分词等等功能。安装语料库import nlknlk.download()文本处理流程最后从文本转换为一组数字,这些数字就隐含了文本的意义。stopwords:对于注重理解文本意思的应用场景来说歧义太多,所以要去掉。NLTK在NLP上的经典应用有情感分析、文本相似度、文本分类。...原创 2019-04-06 12:34:32 · 1370 阅读 · 0 评论 -
数据挖掘之CTR预估(FM算法)
CTR预估有一个传统的方法叫做FM。源数据如下:由于都是categorical类型数据,所以需要进行one-hot编码转化为数值型这里会发现数据变得很稀疏,这在现实问题中是十分常见的情况,并且one-hot编码的另一个特点就是会造成特征空间变大。而引入FM的时机就是,某些特征经过关联之后,与label之间的相关性会提高。例如USA与Thanksgiving等等,因此引入两个...原创 2019-04-05 22:33:42 · 792 阅读 · 0 评论 -
了解数据挖掘
1763 年,Thomas Bayes 的论文在他死后发表,他所提出的 Bayes 理论将当前概率与先验概率联系起来。因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础。1805 年, Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用回归确定了天体(彗星和行星)绕行太阳的轨道。回归分析的目标是估计变量之原创 2016-10-27 09:13:26 · 1074 阅读 · 0 评论