自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

酱油家的老陈醋

数据挖掘百科全书

  • 博客(50)
  • 资源 (1)
  • 收藏
  • 关注

原创 用户画像的思考

最近看了很多的关于用户画像的文章,在此处总结下用户画像的目的、如何构建及如何使用。什么是用户画像用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。用户的画像是由一个一个的反应不同习惯偏好的标签组成的标签集合所构成。标签反应了用户的局部形象,标签集合绘制了用户的总体形象。标签和用户画像的关系是一个局部和整体的概念。用户画像构建的目的基于数

2016-12-25 17:47:41 1956

原创 相关分析与回归分析变量选择方法(笔记)

变量间的关系分析:变量间的关系有两类:存在明确的关系-函数关系;不存在完全确定性。相关变量关系有两种:平行关系——相互影响;依存关系——变量a收到变量b的影响。变量间关系及分析方法:a.函数关系(确定性关系)——数学表达式(数学模型)b.相关关系(非确定性的关系)——b1.平行关系(相关分析);b2依存关系(回归分析)b1.平行关系(相关分析)——b11.一元相关分析——线

2014-03-30 13:16:40 9720

原创 supervised learning

有监督学习是指通过已经识别的样本来调整学习模型的参数来达到最佳效果。这样经过监督学习后的模型具有更高的分类效果和识别效果。常见的监督学习有:神经网络、决策树、分类、svm、K-近邻学习

2014-02-08 11:45:44 647

转载 hadoop安装(zhuan)

转载自:http://www.2cto.com/kf/201211/171033.htmlHadoop单机安装配置过程:  1、首先安装JDK,必须是sun公司的jdk,最好1.6版本以上。最后java–version 查看成功与否。注意配置/etc/profile文件,在其后面加上下面几句:exportJAVA_HOME=/usr/local/jdk1.6.0

2014-01-24 15:27:30 746

转载 R语言 linux安装

转载一篇文章,感谢这位博主:http://blog.sina.com.cn/s/blog_551d7bff0101423f.html感谢,学习了。。。由于希望在Hadoop集群上配置RHadoop,自然需要在每个服务器节点上安装R语言。在安装过程也碰到了一些小问题,因此记录一下。    首先服务器系统版本为centos5.6,R版本为2.13.2。下

2014-01-22 11:19:58 791

转载 HTTP状态的含义(HTTP100,HTTP304等)

转载自http://www.kuqin.com/web/20090913/68714.html下表显示了常见的HTTP 1.1状态代码以及它们对应的状态信息和含义。应当谨慎地使用那些只有HTTP 1.1支持的状态代码,因为许多浏览器还只能够支持HTTP 1.0.如果你使用了HTTP 1.1特有的状态代码,最好能够检查一下请求的HTTP版本号。状态代码

2013-12-11 02:06:03 1287

转载 以太网帧长度介绍(转)

##################################################################Ethernet II以太网帧格式:目标MAC 源MAC 类型 数据 FCS6字节 6字节 2字节 46-1500字节 4字节所以最小6+6+2+46+4 = 64,最大6+6+2+1500+4 = 15

2013-11-23 21:09:38 1761

转载 Crontab定时任务笔记

Dave大神博客:http://blog.csdn.net/tianlesoftware/article/details/5315039一.  Crontab 介绍        crontab命令的功能是在一定的时间间隔调度一些命令的执行。 1.1 /etc/crontab 文件       在/etc目录下有一个crontab文件,这里存放有系统运行的一些调

2013-11-12 12:53:39 543

原创 移动互联网业务感知评估

背景知识:移动互联网业务质量成为用户重点投诉领域:移动互联网业务投诉占无线网络投诉的,远远超过语音和短信彩信业务。移动互联网投诉量增长趋势明显:移动互联网业务用户投诉同步上升。移动互联网业务质量缺乏评估手段: 传统指标无法量化移动互联网业务质量,获取用户访问感知;需要建立基于业务的移动互联网感知指标体系来评价网络质量,指导网络端到端优化。数据架构:考虑不用业务的

2013-10-31 13:36:47 2669

原创 MySQL数据导入导出整理

MySQL linux数据库导入数据:LOAD DATA INFILE'/data/gndata/Gn810_pdp_session_60_.csv'INTO TABLE pdpsessionCHARACTER SET utf8FIELDS TERMINATED BY ','OPTIONALLY ENCLOSED BY '\''linesterminated

2013-10-24 21:46:43 972

转载 R语言与数据挖掘学习笔记

今天发现一个很不错的博客(http://www.RDataMining.com), 博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天 开始,只要晚上能在11点之前把碗洗好,就花一个小时的时间学习博客上的内容,并把学习过程中记不住的信息记录下来,顺便把离英语四级的差距尽量缩小。下面列出了可用于

2013-10-10 10:22:18 793

转载 R语言 Machine Learing包整理

转载自:http://blog.sina.com.cn/s/blog_618985870101hvep.html上次在博客里写了一个R语言常用函数整理,现在进一步整理R语言中有关机器学习(Machine Learning)的包,如下:Machine Learning & Statistical Learning (机器学习 & 统计学习) 网址:http://cran.

2013-10-10 10:21:37 1358

转载 Matlab 批量导入txt文件

将一个文件目录下所有的文件名字全部倒入到一个文件中,除了使用ls函数以外,还可以使用file=dir('C:\Users\Administrator\Desktop\MATLAB数据的导入导出以及试验的数据\*.xls'); filename={file.name}'关注一下dir命令(本质是DOS命令) %1)是使用matlab的texetread函数批量导入

2013-09-18 16:19:15 8030

原创 笔记---怪诞行为学

1.分析数据背后的人的行为(irrationality)2.用户满足感是相对的,满足感是与周围人比较得到的(relativity,adaptation)3.Paying the price心理定价逐渐改变(anchoring)在随着环境变化而移动4.free心理5.social norms社交礼仪的成本6.兴奋状态影响用户行为

2013-08-27 21:28:47 530

转载 excel 年月日合并

一、年月日在不同列中合并到一列:公式1:=B1&"年"&C1&"月"&D1&"日"或 =B1&"-"&C1&"-"&D1例如:B1为2012,C1为12,D1为15,合并为2012年12月15日,或合并为2012-12-15公式2:=MID(A3,1,4)&"-"&MID(B3,1,2)&"-"&MID(C3,1,2)表示为:从A3左边第1位

2013-08-20 13:16:48 6230

原创 mysql服务器取数笔记

对2013年200天的数据分析:去数据平稳的六月份的20-25号数据分析:可以看到数据成周期变化,mysql提取数据保存:selectlac,cellci,servicename,sum(spd_avg_bytes),s_year,s_month,s_dayfrom lv_ipsession_allwheres_year = 20

2013-08-20 12:54:16 580

原创 数据挖掘算法--分类与预测笔记

分类和预测是两种数据分析形式,可以用于提取描述重要数据量的模型或预测未来的数据趋势。然而,分类是预测分类标号,而预测建立连续值函数模型。数据分类两过程:1.建立模型,描述预定的数据类或概念集。学习模型用分类规则、判定树或数学公式的形式提出。2.使用模型进行分类。利用测试集评估模型的预测准确率,如果准确率可以接受,可以用来对未知数据元组分类。预测是构造和使用模型评估无

2013-08-15 14:39:13 1775

原创 数据挖掘中的关联分析方法

关联规则是揭示事物之间的某种联系,支持度与置信总是伴随着关联规则存在,是对关联规则的必要补充。支持度和置信度例子:购买计算机的客户趋向于购买财务管理软件的关联规则表示:    计算机=>财务管理软件【support = 2%,confidence = 60%】支持度:表示有2%的用户同时购买了计算机和财务管理软件;置信度:表示购买计算机顾客中

2013-08-15 09:48:44 5002

原创 微信流量识别和分析的几个方法

微信识别方法总括:•基于人工拨测的bit-level级的DPI检测方法•基于机器学习的检测方法:Flow-level,Packet-level,Bit-level.机器学习-Flow-Level算法:•采用期望最大化算法(EM)来识别不同应用每个连接的网络流量,并采用总包数、上行平均包大小、下行平均包大小、总时延、邻包间隔时延这五个流量统计特征来标示。统计得出微信的

2013-08-13 21:26:43 3920

转载 运营商的数据挖掘主题

运营商的数据挖掘主题1.业务分类      大客户:移动大客户定义根据总部的统一定义,客户积分是评判大客户的依据,每年年末对大客户重新计算,确定下年的大客户积分评判阈值。大客户资格在年内只升不降。年内每月对达到大客户积分的标准赋予其相应的大客户资格。依大客户级别递增,移动大客户拥有4种VIP卡,分别是钻石卡、金卡、银卡、贵宾卡。普通客户:除大客户之外的非神州行个人用户。

2013-08-12 08:54:56 1027

转载 Linux常用命令大全

系统信息arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuin

2013-08-09 10:09:23 527

原创 数据挖掘进行客户关系管理

阅读了一篇关于客户管理的博文,自己做点笔记记下了。。。原版地址在:http://www.itongji.cn/article/0F923E2013.html对这方面的感兴趣的可以去看原版背景:       在当今市场上,商业的成功离不开有效的客户关系管理(Customer Relationship Management,CRM)。客户关系管理的本质是更有

2013-08-08 16:17:42 992

原创 数据业务支撑系统

基于附件中的两个PPT,再加些分析案例进去,合成一个系统介绍的PPT。要求:PPT思路清晰、重点分明、版式统一、配色符合移动logo的搭配方式,且其中不能出现具体的省的名称,最多用某省来叙述。一、数据业务分析系统需求1.四网协同流量分析需要IT支撑手段Gn口信令监控成为网络和业务监控 的基本手段2.二、数据业务系统架构与功能

2013-08-08 12:15:40 1540

转载 数据可视化工具搜集总结

如今学习应用数据可视化的渠道有很多,你可以跟踪一些专家博客,但更重要的一点是实践/实操,你必须对目前可用的数据可视化工具有个大致了解。以下是Netmagzine列举的二十大数据可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要。更加美妙的是,这些工具大多免费。第一部分:入门级工具1.ExcelExcel的图形化功能并不强大,但Excel

2013-08-06 10:13:34 1324

转载 转载Mysql端口配置,允许外网访问3306端口一篇好文章

MySQL安装后,默认只允许通过127.0.0.1的方式在服务器访问3306端口1). 3306端口是不是没有打开?使用nestat命令查看3306端口状态:~# netstat -an | grep 3306tcp        0      0 127.0.0.1:3306          0.0.0.0:*               LISTEN从结果可以看出33

2013-08-02 08:59:18 2057

转载 SQL配置--来自百度知道的一位人士的回答

1、安装向导欢迎界面2、选择安装类型 Typical(典型)、Complete(完全)、Custom(自定义)选择“Custom”安装3、自定义安装默认情况下MySQL将会被安装到C:\Program Files\MySQL\MySQL Server 4.1\文件夹里面。可以点“Change”更改路径。(建议装在非系统盘,如: D:\Mysql)4、准备开始安装Inst

2013-08-02 08:54:14 651

转载 ubuntu在系统启动logo过后无法进入桌面的处理方法

1)ubuntu在系统启动logo过后无法进入桌面的处理方法一般情况下,无法显示桌面,然后/var/log/Xorg.0.log中显示找不到显示器设备,但是在系统启动的时候会显示启动logo,是因为显示配置文件找不到。例如,/etc/X11/xorg.config文件不存在。 走此情况的解决方法是: #Xorg -configure    //生成默认配置文件,一般保存为/root/xorg.

2013-08-01 15:18:41 815

原创 数据挖掘技术--多维数据模型

数据立方体: 数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看成数据立方体形式。多维数据模型围绕中心主题组织,该主题是事实表表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。他是维和事实定义的。维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字。一个n维数据的立方体叫做基本方格。给

2013-08-01 15:07:07 1879

原创 数据挖掘技术笔记--OLTP与OLAP

传统的异种数据库集成:   * 在多个异种数据库建立包装程序和中介程序。  * 查询驱动方法--当从客户端过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器。 * 缺点:复杂的信息过滤和集成处理,竞争资源 数据仓库:更新驱动  * 将多个来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析

2013-08-01 10:46:26 955

转载 数据异常行为

在分析数据的时候,总有那些一些数据异常无法找到适当的理由进行合理解释,也许可以换个角度来看待这些异常。为什么明明数据发生较大的起伏波动,我们绞尽脑汁还是无法找到合理的原因,这些到底是怎么样的异常,是不是存在一些共性,或者这些异常是不是我们平常所说的异常,抑或是应该归到其他类别,不妨先叫它们“难以解释的异常”。  近段时间在读《思考,快与慢》这本书,作者卡尼曼的观点似乎可以给我们一些答案。卡尼曼

2013-07-28 10:49:34 941

转载 ubuntu与桌面系统

1)ubuntu在系统启动logo过后无法进入桌面的处理方法一般情况下,无法显示桌面,然后/var/log/Xorg.0.log中显示找不到显示器设备,但是在系统启动的时候会显示启动logo,是因为显示配置文件找不到。例如,/etc/X11/xorg.config文件不存在。 走此情况的解决方法是: #Xorg -configure //生成默认配置文件,一般保存为/root/xorg.con

2013-07-21 10:54:45 637

原创 GPRS学习2-基本功能和业务

1.基本功能和业务:GPRS业务种类:PTP和PTMGPRS业务特点:适合突发的数据应用业务,能高效利用信道资源,但对大数据量业务要限制。2.体系结构和传输机制:Um接口是GSM/GPRS/EDGE网络中,MS(Mobile Station,移动台)与网络之间的接口,也被称为空中接口(Air Interface)。Um接口用于传输MS与网络之间的信令信息和业务信息Gp接口是GP

2013-07-04 10:27:16 856

原创 网络基础知识学习-术语解释

TCP:Transmission Control Protocol 传输控制协议TCP是一种面向连接(连接导向)的、可靠的、基于字节流的运输层(Transport layer)通信协议。IP=Internet Protocol(网络之间互连的协议)IP是为计算机网络相互连接进行通信而设计的协议UDP:User Datagram Protocol用户数据报协议UDP是 OSI 参

2013-07-03 13:20:57 840

转载 网络基础知识学习6-地址转换

地址转换的机制是将网内主机的IP地址和端口替换为路由器的外部网络地址和端口,以及从路由器的端口转换为主机的IP地址和端口,也就是 =.地址转换的优缺点地址转换的优点在于       内部网络的主机可以通过该功能访问网外资源为内部主机提供了隐私 privacy 保护缺点也是由转换功能所引起       由于需要对数据报文进行IP地址的转换 涉及IP地址的数据报的报头不能被

2013-07-03 10:36:26 1090

原创 网络基础知识学习5-OSPF协议

OSPF路由协议术语:OSPF路由协议:Open Shortest Path First   最短路径优先协议路由器router:第三层的IP包交换机,以前在IP文献中也叫做网关自治系统(autonomy system):一群路由器通过相同的路由协议来交换路由信息(AS)区域(area): 自治系统的划分单元,一个自治系统可以划分为多个区域区域 ID(area ID): 自

2013-07-03 10:22:43 902

原创 网络基础知识学习4-PPP协议

PPP协议是在SLIP(Serial Line IP串行线IP协议)的基础上发展起来的。由于SLIP协议只支持异步传输方式、无协商过程等缺陷,后被PPP协议所替代。PPP协议==Point-To-Point Protocol 点到点协议。它作为一种提供在点到点链路上传输 封装网络层数据包的数据链路层协议处于TCP/IP协议栈的第二层主要被设计用来在支持全双工的同异步链路上进行点到点之间的数据传

2013-07-03 09:42:37 1280

原创 网络基础知识学习3-IP协议

IP协议通信子网的最高层,提高无连接的数据传输机制。IP协议是点到点、核心:寻址。它像上层提供统一的IP数据包,使得各种物理帧的差异性对上层协议不复存在。与IP协议配套使用的三个协议:ARP(Address Resolution Protocol)地址转换协议,地址解析协议RARP(Reverse Address Resolution Protocol)反向地址转换协议,ICM

2013-07-02 16:27:03 930

原创 网络基础知识学习2-以太网

局域网:局域网是覆盖较小的高速容错网络,是OSI七层模型的物理层和数据链路层和之间发挥作用。介质访问:1.载波监听多路访问、冲突检测(CSMA/CD),网络设备物理介质,以太网使用该介质。2.令牌传送(Token passing),网络设备只允许令牌持有者访问物理介质,令牌环网络和FDD网络使用该方法。数据传输形式:单播(unicast),多播(multicast),广播(br

2013-07-02 12:50:56 869

原创 网络基础知识学习1-路由器

1.ISO提出了开放系统互联模型(OSI/RM),协议分层:应用层,表示层,会话层,传输层,网络层,链路层,物理层。2.后TCP/IP协议顶替OSI成为行业事实上的标准。中继器 Repeater: 工作在物理层 在电缆之间逐个复制二进制位bit桥接器 Bridge :工作在链路层在LAN之间存储和转发帧frame路由器 Router: 工作在网络层 在不同的网络之间存储和转

2013-07-02 11:14:30 902

原创 GPRS学习(1)----网络结构及主要网元功能

1.BTS--Base Transceiver Station---- 基地收发信机站 就是基站。2.BSC--Base Station Controller----移动通信中的2G基站控制器。3.SGSN--Serving GPRS Support Node--GPRS服务支持支点。 •本SGSN区域内的分组数据包的路由与转发功能,为本SGSN区域内的所有GPRS用户提供服务。

2013-07-02 07:57:37 3790

cormen的算法导论(英文版)

算法的学习对一个计算机从业人员非常的重要,这里发一本书。算法导论是有美国的计算机学者cormen的算法导论,希望对大家有帮助。

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除