数据挖掘+机器学习
文章平均质量分 68
不迷信_只迷人
这个作者很懒,什么都没留下…
展开
-
针对于分布式平台hadoop取数据的两种方式
大数据平台下取数据的两种方式:1.直接 hiveHive 执行现在用到三种方式:1. 直接进入hive> balabala..... 这个就是正常的与用户交互页面 然后 直接mysql 进行存取 ps: 执行语句的最后加上; eg:hive> exit 完全没反应 hive> exit; 顺利退出 2. 可以 hive -e "select * fr原创 2016-03-17 00:21:13 · 864 阅读 · 0 评论 -
Anaconda 的发现
Anaconda 集成了numpy , pandas , matplotlib , nltk 等常见的包再不用集成到eclipse开发DM太方便了原创 2016-04-13 15:20:24 · 355 阅读 · 0 评论 -
K-近邻算法
K 近邻算法 是很简单易于实现的一种算法之一 “近朱者赤,近墨者黑”的算法主要思想: 给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该实例分为某个类KNN主要由 训练数据,度量方法,K来决定 度量方法:1.简单欧式距离的计算 2.如果是文本的话,采用余弦度量 确定y的时候,可以选择如下原创 2016-04-13 15:42:36 · 674 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2016-04-18 21:41:43 · 273 阅读 · 0 评论 -
台湾国立大学的《机器学习基石》第一讲 笔记
一,机器学习定义A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experien原创 2016-04-18 21:58:22 · 829 阅读 · 0 评论 -
网站流量数据分析技巧【转】
转: http://blogger.org.cn/blog/more.asp?name=haonan917&id=470451.流量分析 一般说来,评价一个网站流量主要有两个指标:Page View和IP。全面一点说,还应该包括另外两个指标:会话数和用户数。会话是指访问者从访问您网站开始,查看了一些页面后到关闭浏览器或者离开您网站的一个浏览过程,会话数即是所有浏览过程的个数; 用户数是访问您网站转载 2016-04-19 23:40:14 · 1415 阅读 · 0 评论 -
决策树(Decision Tree)
决策树就是一系列的if-then语句决策树的学习包括三个步骤:特征选择,决策树的生成和决策树的修剪特征选择:主要看用该特征进行分类的结果与随机分类的结果有没有很大差距常见方法:信息增益,信息增益比,基尼指数基尼指数:来自集合中的某种结果随机应用于集合中某一数据项的预期误差率在分类问题中,假设有k个类,样本点属于第k类的概率为Pk,则概率分布的基尼指数定义为Gini(k)=sum(Pk * (1 -原创 2016-04-23 09:44:59 · 1026 阅读 · 0 评论 -
基本机器学习算法学习
1.线性回归(Linear Regression) 2.逻辑回归(Logistic Regression) 3.决策树(Decision Tree) 4.支持向量机(SVM) 5.朴素贝叶斯(Naive Bayes) 6.K邻近算法(KNN) 7.k-均值算法(k-means) 8.随机森林(Random Forest) 9.降低维度算法(Dimensionality Reducti原创 2016-04-19 16:58:25 · 538 阅读 · 0 评论