自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rav009的专栏

大数据相关 Python相关

  • 博客(12)
  • 资源 (9)
  • 收藏
  • 关注

转载 对Python中文分词模块结巴分词算法过程的理解和分析

结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了

2013-09-30 15:23:14 62670 5

原创 C# 连接 Sqlserver2005 Analysis Service的总结

首先要下载一个 ADOMD.net 的组件,这个组件封装了对多维数据集的访问。下载连接:http://pan.baidu.com/share/link?shareid=3272425634&uk=268671865安装完了可以在 X:\Program Files\Microsoft.NET\ADOMD.NET\90 下找到 Microsoft.AnalysisServices.AdomdC

2013-09-11 16:44:20 1812 1

原创 Weka Experimenter(实验者界面) 简解

111

2013-09-11 13:45:46 3871

原创 数理统计中 极大似然 的含义简介(举例说明)

概率中存在许多分布,其中著名的有 正态分布、指数分布、均匀分布和二项分布等。这些分布的概率密度曲线都有分布的参数决定,比如决定正态分布钟形曲线的参数有均值 μ 和方差σ^2。决定指数分布的参数则是 λ ,决定二项分布的则是 p 值。当我们已经知道一个总体的概率分布是哪一种的时候,对其取样。根据得到的样本,通过不断调整 该分布的参数,使抽到的样本称为概率上最可能抽到的样本,这时候得到

2013-09-10 18:18:39 2372

原创 Weka Knowledge Flow(知识流界面) 详解

Weka Experiment(实验界面) 详解

2013-09-09 17:37:23 8746

原创 Weka Explorer(探索者界面) 详解(4)logistic回归和回归算法

logistic回归和回归算法

2013-09-06 18:16:18 18879

原创 Weka Explorer(探索者界面) 详解(3)决策树算法,分类器评价标准说明

这篇文章中我会通过几个例子向大家介绍一些weka经典的算法和评估算法的手段。

2013-09-05 17:38:26 16546

原创 Weka Explorer(探索者界面) 详解(2)

关联规则标签 Associator关联标签页的界面就更简单了,算法也少,其中最有名的算法就是Apriori算法。可以通过点击算法的选择框来配置Apriori算法查找的规则的 最小支持度和最小置信度。查找的规则如下形式: 1. outlook=overcast 4 ==> play=yes 4 conf:(1)第一个数字4表示符合条件的实例数目,第二个数字4表示对应的关联规则也为真

2013-09-05 16:38:43 3229

原创 Weka Explorer(探索者界面) 详解(1)

打开Weka后在弹出的Weka GUI Chooser 中点击 Explorer,进入探索者界面。探索者界面是Weka最简单的使用界面。所有的Weka功能都能在这个界面中通过点击鼠标和表单填写来使用。由于很多选项都预设了常用的默认值,使用户以最小的代价取得结果。不过该界面也有缺点:它会把样本数据全部读入内存,所以分析的样本数据量不能太大。在探索者界面有6个标签,我们一个一个说:预处理标签

2013-09-05 14:16:20 6947

转载 linux 文件标志位 setuid与setgid与stick bit 详解

1、setuid与setgid讲解 (让其他用户运行文件时拥有创建者或者所属组的权限)chmod u+s xxx # 设置setuid权限 chmod g+s xxx # 设置setgid权限 看一下系统中用到它的地方,以/etc/passwd和/usr/bin/passwd为例: 复制代码代码如下:[root@Salve1 school]# l

2013-09-03 17:01:12 3043

原创 LINUX 使用 smbclient 获取windows 共享目录的文件 详解

安装samba(sudo apt-get install samba) ,smbclient(sudo apt-get install smbclient)网上的教程还说要装一个smbfs(sudo apt-get install smbfs)。但实际运行的时候会报这个报已经被取代。所以不装也没事。然后配置samba配置文件sudo gedit /etc/samba/smb.con

2013-09-03 16:30:36 16856 2

原创 在linux(ubuntu )上安装配置weka

1. 下载java vm。在命令行输入 wget --no-cookie --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F"  http://download.oracle.com/otn-pub/java/jdk/7u25-b15/jdk-7u25-linux-i586.tar.gz   注意命令行中参数表示带cookie的

2013-09-03 16:11:55 8489 2

AWS Redshift Kinesis.zip

AWS Redshift & Kinesis Data Stream/MSK/Flink 开发教程文档

2022-01-16

CLOSET+ 算法简论

CLOSET+ 算法简论

2013-05-27

详解python实现FP-TREE进行关联规则挖掘

详解python实现FP-TREE进行关联规则挖掘 python3.2实现,可以生成每一步fp树的图片(需要安装PIL)

2013-05-26

python实现FP-TREE挖掘算法

python3.2实现FP-TREE挖掘算法,可以显示每一步FP树的图片

2013-05-24

数据仓库pdf 合并版

数据仓库pdf 合并版 其他的版本是有多个pdf文件,一章一个,看起来不方便,做了合并成为一个pdf

2013-05-08

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子 注意,请自行根据hbm.xml建立数据库,默认配置用的是mssql2005

2012-09-26

codesmith用的根据数据库生成NHibernate资源的模板

codesmith用的根据数据库生成NHibernate资源的模板

2012-09-08

visual C#网络编程(郑阿奇编)异步通信程序的源代码

visual C#网络编程(郑阿奇编)异步通信程序的源代码

2012-05-21

visual C#网络编程(郑阿奇编)同步通信程序的源代码

visual C#网络编程(郑阿奇编)同步通信程序的源代码

2012-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除