数据分析挖掘
文章平均质量分 70
conggova
数据库、大数据、数据仓库、数据挖掘
展开
-
朴素贝叶斯分类Python演示
# -*- coding: utf-8 -*-import numpy as npimport matplotlib.mlab as mlabimport matplotlib.pyplot as plt '''朴素贝叶斯分类器的原理 事件H的先验概率P(H),即无条件概率事件H在X发生时的后验概率P(H|X) 这里面H通常是指某一个分类X是指样本事原创 2017-08-24 13:24:10 · 313 阅读 · 0 评论 -
基于信息增益的决策树归纳的Python实现【CD4.5算法】
# -*- coding: utf-8 -*-import numpy as npimport matplotlib.mlab as mlabimport matplotlib.pyplot as pltfrom copy import copy #加载训练数据#文件格式:属性标号,是否连续【yes|no】,属性说明attribute_file_dest = 'F:原创 2017-08-24 13:32:33 · 2084 阅读 · 1 评论 -
获取频繁项集和关联规则的Python实现【先验算法】
# -*- coding: utf-8 -*-#参数设定data_file = 'F:\\user_match_stat\\itemset.txt' #文件格式csv,形如:item1,item2,item3 #每个事务占一行frequent_itemsets_save_file = 'F:\\user_match_stat\\frequent_itemsets.txt'r原创 2017-08-24 13:40:49 · 1955 阅读 · 0 评论 -
计算最大的关系网络的Spark实现
from pyspark import SparkConf , SparkContextconf = SparkConf().setMaster("local").setAppName("My app")sc = SparkContext(conf=conf)'''从关系对的数据中,找出所有最大的互不关联的连通子网络源数据格式为1,22,34,5节点的关原创 2017-08-24 14:09:15 · 611 阅读 · 0 评论 -
随机数对某一个范围的覆盖率的计算
# -*- coding: utf-8 -*-#import sys #sys.setrecursionlimit(1000000) #例如这里设置为一百万 from random import randomfrom math import floor'''这样一个场景:n为一个正整数m为一个正整数在【0 , n)之间产生m次随机数, 求这些随机数原创 2017-08-24 17:35:46 · 944 阅读 · 0 评论 -
马尔可夫链的演示Python
# -*- coding: utf-8 -*-import numpy as npfrom random import random#转移矩阵trans_matrix = np.array([[0.5 , 0.1 , 0.25 , 0.05], [0.15 , 0.5 , 0.2 , 0.05], [0.1 , 0.2 , 0.5 , 0.4],原创 2017-08-24 18:08:28 · 2266 阅读 · 0 评论 -
关于流通系统的流失特性的研究
# -*- coding: utf-8 -*-import numpy as npfrom random import random'''场景描述:一个由多个节点构成的流通系统,系统中存在能量的流动;如果这个系统是每个节点都是无损的,那么最终各个节点上的能量会稳定下来;稳定的状态由转移矩阵决定,与能量从哪个节点进行系统没有关系;(充分联通的系统)然而很多原创 2017-08-24 18:30:26 · 225 阅读 · 0 评论 -
斗地主农民手牌的58684015种可能性
# -*- coding: utf-8 -*-'''计算斗地主一手牌的所有可能组合数原创算法'''#计算Cn x 组合数def get_combinations(n , x) : t1 = n - x if t1 x = t1 if x == 0 :原创 2017-08-24 18:52:49 · 632 阅读 · 0 评论 -
K_average聚类算法的Python简单实现
# -*- coding: utf-8 -*-#k均值算法 主要部分 简单实现from random import random'''因为单次只能收敛到局部最优解 所以需要多次尝试 最所有对象的误差的平方和最小的结果。二维数据'''#设定K值K = 3#从文本中获取对象列表src_file_name = 'F:\\study\原创 2017-08-24 19:19:37 · 408 阅读 · 0 评论 -
数据清洗概要
数据清洗的目标使数据都是意义明确的、正确的、规范的;提高数据的可用性。 数据清洗的前提条件在数据清洗之前需要具备以下条件:1. 数据已经接入。2. 已经有基本的业务范围信息。3. 已经有基本的数据语义信息(表和字段说明)。4. 数据一致性校验已经完成(保证数据在传输过程中没有损失)。 数据清洗的四个方面1. 明确数据的业务范围 数据的业务范围的原创 2017-08-26 17:33:41 · 2180 阅读 · 0 评论 -
斗地主的一种牌力分析模型(脑洞)
对于一种拆牌中每一个牌型(如3334, 22),定义两个值,一个是承载力,一个是驱动力承载力:在某一个条件下,此牌型带出任意另一个牌型的可能性。比如王炸总是可以带出任意的一个牌型,那么它的承载力总是1。在某些情况下,34567也有0.9的可能性不被打住,那么它在这时候就有0.9的承载力。驱动力:在某一个条件下,此牌型可以打住(不管之后会不会被另外的牌打住)一手牌的可能性。王原创 2017-08-26 19:42:19 · 3415 阅读 · 0 评论 -
数据分析、数据挖掘的本质
观点一,如上图所示,数据是信息的载体,信息是数据的本质观点二,任何对于数据的分析和挖掘的做法,实质上都是对于信息的加工和转换。观点三,在将信息记录成数据的过程中,可能产生信息的损失。观点四,在数据的传输过程中可能产生数据的损失,同时也就是信息的损失。观点五,在从数据还原成信息的过程中很可能产生理解的偏差,造成信息的损失。如上图所示,数据分析挖掘的过程也就原创 2017-08-26 17:44:42 · 1968 阅读 · 0 评论 -
Jupyter云端python开发环境的搭建
首先,Anaconda2 直接安装在远程服务器上。 pip install bit_arraypip install thrift_saslpip install thrift==0.9.3#为了能连接Hive或者Impalapip install impyla 配置远程登陆1. 登陆远程服务器2. 生成配置文件$jupyter no原创 2017-08-26 19:25:13 · 1488 阅读 · 0 评论 -
BP神经网络的原理及Python实现
网络结构层数:2 输入个数:3 隐藏层节点数:10 输出层节点数:1数据结构用一个dict表示整个网络: {’input_layer’ : 输入节点列表 , ‘hidden_layer’ : 隐藏层节点列表 , ‘output_layer’ : 输出层节点列表 }输入节点:{‘input_value’ : num}隐藏节点:{‘bias原创 2017-09-02 10:35:53 · 1780 阅读 · 0 评论 -
用SQL分析世界杯数据
create table teams (id varchar2(3) primary key , name varchar2(20) not null ) ;create table match_results (team1 varchar2(3) references teams(id) not null, team1_goals integer not null ,team2 va原创 2017-08-24 01:04:55 · 634 阅读 · 0 评论