关闭
当前搜索:

数据挖掘十大经典算法

十大经典算法 1)C4.5 决策树是一种依托决策而建立起来的一种树。是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系。每一个节点代表一个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所代表的对象的值。决策树可以有单一输出,也可以有多个输出。 C4.5是一种分类决策树算法,核心算法是ID3算法,是对其的改进。 ID3(It...
阅读(285) 评论(0)

正则表达式基础教程

正则表达式是一个用来描述或匹配一些列符合某个句法规则的字符串的单个字符串。 应用举例: 防止SQL注入采集验证数据 与通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你的需求——当然,代价就是更复杂。 假设你在一篇英文小说里查找hi,你可以使用正则表达式hi。 不幸的是,很多单词里包含hi这两个连续的字符,比如him,history,hig...
阅读(219) 评论(0)

try catch finally的执行顺序

觉得这篇帖子总结得很好,这一类题目很容易出现在面试中,因此当做mark了 结论: 1、不管有木有出现异常,finally块中代码都会执行; 2、当try和catch中有return时,finally仍然会执行; 3、finally是在return后面的表达式运算后执行的(此时并没有返回运算后的值,而是先把要返回的值保存起来,管finally中的代码怎么样,返回的值都不会改变,任然是...
阅读(186) 评论(0)

python数据分析与挖掘学习笔记(7)-交通路标自动识别实战与神经网络算法

这一节主要涉及神经网络算法,由此展开交通路标自动识别的应用。 交通路标的自动识别其实就是一个分类问题。对于分类问题,我们有很多的方法来实现,比如KNN,贝叶斯等。关键点在于图片转文本。本节采用人工神经网络算法来进行识别。 人工神经网络(Artificial Neural Network)是简称神经网络(NN),是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络...
阅读(1226) 评论(0)

python数据分析与挖掘学习笔记(6)-电商网站数据分析及商品自动推荐实战与关联规则算法

这一节主要涉及到的数据挖掘算法是关联规则及Apriori算法。 由此展开电商网站数据分析模型的构建和电商网站商品自动推荐的实现,并扩展到协同过滤算法。 关联规则最有名的故事就是啤酒与尿布的故事,非常有效地说明了关联规则在知识发现和数据挖掘中起的作用和意义。 其中有几个专用词的概念: 支持度:A与B的支持度Support(A->B)表示为P(A and B)。支持度揭示了A与B同时出现的概率...
阅读(1298) 评论(0)

python数据分析与挖掘学习笔记(5)-公司客户价值判断分析与聚类算法

这一节是使用聚类算法来对公司客户价值进行判断和分析。 提到聚类算法,大家应该都会想到是K-means。这是比较简单和经典的一种聚类算法。 k-means聚类算法的原理比较简单,实现也容易,可以直接调用python的sklearn包中封装好的函数实现。 这部分主要记录如何将聚类算法与显示案例应用联系起来判断和分析。 对于这个项目的实现,在已知客户相关数据的情况下,需要发掘出忠实客户数...
阅读(987) 评论(0)

python数据分析与挖掘学习笔记(4)-垃圾邮件自动识别

这是第四节的内容,主要为垃圾邮件自动识别与分类算法。 简单来说,对于垃圾邮件的预测实际上就是一个分类问题,要实现垃圾邮件的预测,我们可以对垃圾邮件进行特征提取,然后进行分类实现。 具体来说: 1. 对邮件进行切词 2. 构造词典 3. 转为稀疏向量 4. 实现贝叶斯算法 5. 通过贝叶斯算法训练数据 6. 通过贝叶斯算法测试数据 贝叶斯算法的原理就是,对于已知类别,通过特征计算该...
阅读(896) 评论(0)

python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part2

接上一节。 注:本文的所有路径都才用的是相对路径,读者请自行换成自己的绝对路径,保证文件可读取。 要进行文本挖掘,需要引入gensim这个工具包,需要用到其中的语料库,模型,相似度等包。 from gensim import corpora, models, similarities # corpora语料库 import jieba from collections import def...
阅读(753) 评论(0)

python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part1

这一节主要是对小说文本数据的挖掘项目。 文本挖掘的一个重要的应用是进行站点的个性化推荐。将用户感兴趣的信息推送给对应的用户,可以更好地发挥该信息的价值。比如,我们常常会在浏览网页的时候看到相关的广告是我们感兴趣的,新闻推送的是我们感兴趣的文章,阅读小说推荐的是我们想看的小说,逛淘宝的时候也会发现有一部分猜你喜欢,推荐的是你多半感兴趣的商品,等等。 这都是文本挖掘以及相关信息挖掘的技术实...
阅读(1400) 评论(0)

python数据分析与挖掘学习笔记(2)-淘宝商品数据清洗及预处理

这一节开始就正式开始啦~~ 这一部分主要是针对淘宝的部分商品数据进行预处理。 1. 读取商品源数据 这里拿到的数据是sql数据,因此需要使用mysql。首先我们安装好mysql,可以直接通过指令安装: > sudo apt-get install mysql-server > apt-get install mysql-client > sudo apt-get install...
阅读(1066) 评论(0)

python数据分析与挖掘学习笔记(1)-基础及准备

小吐槽,最近听一个课,实话感觉老师讲课水平真不咋的,英文也是让人捉急。。口语简直可怕。。但是懒的时候也是有个学习思路的。 不说题外话了,这个系列是记录一下用Python进行数据分析与挖掘的一些案例和实现。 第一节就说一点简单的准备工作吧。 1. 系统: 系统我用的Ubuntu 14.04, 当然随便换个系统都可以。  2. Python: Python的版本我使用的是3...
阅读(517) 评论(0)

Ubuntu 14.04 64bit SparkR安装部署

要安装SparkR,首先需要安装好hadoop和Spark,这个安装前面两篇已经引用了详细的教程。 值得注意的是,jdk也要确保安装正确,并且有一个默认的版本(如果安装过多个不同版本的jdk),可以通过sudo update-alternatives --config java进行查看和设置。 本文只针对Ubuntu,其他的系统不一定有用。下面通过走过的弯路和具体的安装步骤进行一下记录...
阅读(761) 评论(2)

Spark快速安装与简单入门_Ubuntu14.04 64bitx

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的 API,几行代码就能实现 WordCount。本教程主要参考官网快速入门教程,介绍了 Spark 的安装,Spark shell 、RD...
阅读(1545) 评论(0)

Hadoop 2.x安装教程_单机/伪分布式配置_Ubuntu14.04 64bitx

最近需要跟进小组大势,所以学习一下Spark。本文提供一份Hadoop 2.x.x的详细教程,非常好用。按照流程来,基本没有问题。 本教程由给力星出品,原文链接http://www.powerxing.com/install-hadoop/...
阅读(329) 评论(0)

设置matlab画出的figure图像导出图片的大小

最近用 matlab画图,需要导出图片,但是发现经过拉伸或者改变了标注的位置以避免挡住图形之后,无法确保导出的每一张图片具有相同的大小。就算可以手动调整图片大小,由于白色背景,也无法确保图片并列起来之后在论文或者需要排版的文档中可以保持在同一直线上。因此,搜索问题,找到好的解决方案。 转载至此,供翻阅。 原文地址:http://nanokaleaf.blog.163.com/blog/s...
阅读(9983) 评论(0)
43条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:178727次
    • 积分:1533
    • 等级:
    • 排名:千里之外
    • 原创:30篇
    • 转载:8篇
    • 译文:4篇
    • 评论:25条
    最新评论