自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

软件专家的博客

数据分析,数据挖掘,程序设计,大数据相关的信息,一直致力于大数据的研究。

  • 博客(25)
  • 资源 (1)
  • 收藏
  • 关注

转载 mysql研究的文章

mysql分组取每组前几条记录(排名) 附group by与order by的研究网址:http://www.jb51.net/article/31590.htmmysql分组排序并获得排序号码网址:http://lilywangcn.iteye.com/blog/1168785

2017-01-12 11:39:49 398

转载 较常见的SQL面/笔试题

日志  关于我Andy一枚流星,在想像的高空逡巡,期待的眼波,寂寞而执着  加博友   关注他文章分类·数据库(6)·Cognos 8(1)·J2EE框架(5)·JS脚本(4)·Java/WEB开发(33)·Linux/Unix 程(9)·Android(9)·操

2017-01-06 10:17:26 3192

转载 朴素贝叶斯分类器的应用

朴素贝叶斯分类器的应用生活中很多场合需要用到分类,比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。  症状

2016-12-30 15:17:07 675

转载 python数据分析师面试题选

python数据分析师面试题选以下题目均非原创,只是汇总python数据分析部分1. 如何利用SciKit包训练一个简单的线性回归模型利用linear_model.LinearRegression()函数 # Create linear regression objectregr = linear_model.LinearRegression()# Train

2016-12-28 13:48:15 8530 1

原创 Superior Scheduler学习心得 原创

1、组件介绍:图1-整体系统架构和组件的位置Yarn和Superir scheduler是为了和Hadoop DRM系统一起工作而专门设计的,类似于Yarn现有的开源Fair scheduler和Capacity scheduler,Superior Scheduler遵循着Yarn Scheduler的插件接口,与Yarn RM组件一起

2016-11-16 09:45:22 2210 1

原创 复习题目

数据结构:36,用一个数组tws表示两个栈,栈顶分别为数组的第一元素位置和最后一个位置,用算法表示两个栈的进栈push(tws,i,x)和出栈pop(tws,i)37.奇偶排序法:第一趟是所有奇数i进行排序,第二趟所有偶数i进行排序,如果a[i]>a[i+1],则交换两者的位置,一直到数组有序位置(1)循环结束的条件是什么?(2)编写一个算法,完成排序(3)时间复杂度是多少?

2016-11-10 10:46:36 321

原创 mysql数据的导入

操作mysql过程的一个重要应用是进行数据的插入,一般情况下书写插入脚本不是很方便,特别是数据很大的时候,这时就要想着其他的方法了,现在已经有大量的数据是用txt文件存储的,这个时候想插入数据库,怎么办呢。下面有两种情况,一是脚本已经写好了,是.sql的脚本(脚本也可以是.txt,但要求必须是插入脚本),这时的脚本如下:source d:\\file.txt(file.sql)这样就能导入

2016-11-03 14:06:10 412

原创 Python爬取文件

在进行数据挖掘联系的过程中,有个文件的获取需要使用到python的urllib2包,这里把脚本搞出来,对于爬取网络上的文件有一定的模板作用import urllib2url = 'http://aima.cs.berkeley.edu/data/iris.csv'u = urllib2.urlopen(url)localFile = open('d:\iris.csv', 'w')lo

2016-11-03 11:09:50 2165

原创 Python猜字游戏

现在有一个猜字游戏,现在的情况是,计算机随机生成一个整数,这个整数的区间我们事先给定,这里假定数在0到100之间,然后我们猜字,当猜的数大于生成的整数时,输出“Your answer is too large.”,当猜的数小于生成的整数时,输出“Your answer is too small.”,猜中数字输出“BINGO!!”,结束游戏,下面是python的脚本,以及测试情况:def m

2016-10-29 10:18:32 4419 1

转载 mysql存储过程详解

1. 存储过程简介 我们常用的操作数据库语言SQL语句在执行的时候需要要先编译,然后执行,而存储过程(Stored Procedure)是一组为了完成特定功能的SQL语句集,经编译后存储在数据库中,用户通过指定存储过程的名字并给定参数(如果该存储过程带有参数)来调用执行它。一个存储过程是一个可编程的函数,它在数据库中创建并保存。它可以有SQL语句和一些特殊的控制结构组成。当希望在不同的应用

2016-10-28 14:43:21 216

转载 归并排序

归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。

2016-10-26 16:35:54 367

转载 快速排序

快速排序由于排序效率在同为O(N*logN)的几种排序方法中效率较高,因此经常被采用,再加上快速排序思想----分治法也确实实用,因此很多软件公司的笔试面试,包括像腾讯,微软等知名IT公司都喜欢考这个,还有大大小的程序方面的考试如软考,考研中也常常出现快速排序的身影。        总的说来,要直接默写出快速排序还是有一定难度的,因为本人就自己的理解对快速排序作了下白话解释,希望对大家理解有帮

2016-10-26 09:40:46 245

原创 数据分析师需要学习的知识

1、懂业务。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。2、懂管理。一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意

2016-10-24 22:23:47 964

转载 数据结构的C实现_图_邻接表示

//图,用邻接表表示//编译环境:Dev C++5.11//ALGragh.c#include #include #define ERROR 0#define OK 1#define MAX_VERTEX_NUM  10#define QM 10 //队列的最大元素个数int visited[MAX_VERTEX_NUM];typedef char

2016-10-24 15:45:37 452

转载 如何成为一名数据科学家?

"Data Science = statistics who uses python and lives in San Francisco"恰好我马上启程到 Twitter 的 data science team,而且恰巧懂一点点统计和住在旧金山,所以冲动地没有邀请就厚脸回答了:D我认为有几个大方面1)学好 python。现在几乎所以公司的数据都可以 api 给你,而 py

2016-10-20 14:02:22 294

转载 顺序表的C语言实现

线性表是最常用最简单的一种数据结构,一个线性表是n个数据元素的有限序列。线性结构的顺序表示指的是用一组地址连续的存储单元一次存储线性表的数据元素,以元素在计算机内"物理位置相邻"来表示线性表中数据元素之间的逻辑关系。

2016-10-18 17:01:16 583

转载 栈的顺序表示和实现

2.2基础实验2.2.1 实验目的(1)掌握栈的顺序表示和实现(2)掌握栈的链式表示和实现(3)掌握队列的顺序表示和实现(4)掌握队列的链式表示和实现2.2.2 实验内容实验一:栈的顺序表示和实现【实验内容与要求】编写一个程序实现顺序栈的各种基本运算,并在此基础上设计一个主程序,完成如下功能:(1)初始化顺序栈(2)插入元素(3)删除栈顶元素(4

2016-10-17 10:50:22 8404 1

转载 SparkR:数据科学家的新利器

摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包,对大规模数

2016-10-12 14:09:32 477

原创 K-means使用python进行实现

这里举了一个例子使用python来进行k-means的聚类。

2016-09-26 17:03:52 754

原创 Naive Bayes算法(NB算法---朴素贝叶斯)

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT 学习;第二阶段是贝叶斯网络分类器

2016-09-26 15:02:42 2329

转载 如何入手数据分析

链接:http://www.zhihu.com/question/27573926/answer/109653525来源:知乎著作权归作者所有,转载请联系作者获得授权。粗略扫了一眼这个问题下的答案,发现大部分朋友要么是从工作中意识到数据分析的重要性,从而转到数据分析上来的,要么是统计学专业的学生,很自然的从小规模的统计过渡到大规模的分析上来的。作为一个基本靠自学拿到Data M

2016-09-18 11:28:53 362

转载 聚类、K-Means、例子、细

聚类今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的

2016-09-18 11:12:00 7626

原创 Python文件的读写

python进行文件读写的总结

2016-09-18 11:09:11 1931

转载 快速排序算法

快速排序最初是由Tony Hoare设计的,其最坏情况下的时间复杂度为O(n^2),即逆序的情况下,但是现实中这种情况比较少见,所以是一种很有效的排序算法,其平均时间复杂度为O(n*logn)。而且快排是一个不稳定的排序算法。

2016-09-18 11:00:31 403

转载 一位数据挖掘成功人士给数据挖掘在读研究生的建议(转)

关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是,数据挖掘更侧重于应用的层面。

2016-09-18 10:49:31 21372

数据算法总结

经典的算法数据信息,例如k-means,KNN等相关算法。

2016-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除