机器学习实践指南
文章平均质量分 65
软件工程师后期如果想将薪水提高到一个较高的水平,则需要数学的帮助了, 数学架起了从普通的软件设计开发到智能计算和机器学习的桥梁。本专栏内容已经整理成书,书名为《机器学习实践指南》,该书目标是:让初学者越看越清醒,越看越想看,看完不知不觉就轻松进入了机器学习领域。
麦好
硕士/量化投资协会成员
展开
-
数学之路(机器学习实践指南)-文本挖掘与NLP(6)
def wordfeatures(word): return {"cnword":word}.....classifier=nltk.NaiveBayesClassifier.train(samplewords)#大学所属的类别 http://blog.csdn.net/myhasplprint u"----大学所属的类别-----"print classifier.class原创 2016-02-04 22:55:39 · 2019 阅读 · 0 评论 -
数学之路(机器学习实践指南)-文本挖掘与NLP(5)
#条件频率,每个词条在不同分类中出现的频率print "------------------"cfd=nltk.ConditionalFreqDist(samplewords) fdist=cfd[u'财经']for word in fdist: print wordprint "---------流动性出现次数-----------"print cfd[u'财经'][u'原创 2016-02-02 12:22:17 · 1815 阅读 · 0 评论 -
数学之路(机器学习实践指南)-文本挖掘与NLP(4)
sample=cutstring(u"据悉,这辆汽车绰号野兽,野兽很可能于2017年1月份美国第45任总统就职时使用。目前,野兽的详细规格都属于绝密信息,但谍照显示野兽采用了凯迪拉克的最新护栅和前灯设计。")tokenstr=nltk.word_tokenize(sample)fdist3=nltk.FreqDist(tokenstr)print "---美国出现的次数---"print原创 2016-01-29 16:00:35 · 1630 阅读 · 0 评论 -
数学之路(机器学习实践指南)-文本挖掘与NLP(3)
#--coding:utf-8--#code by myhaspl from __future__ import unicode_literalsfrom __future__ import divisionimport nltkimport syssys.path.append("../")import jiebadef cutstring(txt): #分原创 2016-01-29 11:50:57 · 1628 阅读 · 1 评论 -
数学之路(机器学习实践指南)-文本挖掘与NLP(2)
#--coding:utf-8--#code by myhaspl from __future__ import unicode_literalsfrom __future__ import divisionimport nltkimport syssys.path.append("../")import jiebadef cutstring(txt):原创 2016-01-28 08:36:02 · 1894 阅读 · 1 评论 -
R语言与数据分析【第1季】
当今计算机系统要处理的数据类型变得多种多样,并且为了深入理解,需要对数据进行过滤;同时,开源应用变得越来广受欢迎,这一切都在改变着 R 这一用于统计分析与可视化的语言。随着时代的发展,R语言也在不断的衍变,并成为了当前很多大数据应用当中的一个环节。 大数据时代,R 语言已蓄势待发,各位学员,let's go!视频地址:http://edu.csdn.net/course/detail/645原创 2015-05-11 18:46:21 · 1578 阅读 · 0 评论 -
stata随笔(1)
generate str name="zhangsang" . generate int age=28. set obs 1obs was 0, now 1. replace name = "zhangsang" in 1name was str1 now str9(1 real change made). replace age = 22 in 1(1 real change made). se原创 2015-05-15 16:37:16 · 1868 阅读 · 0 评论 -
基因检测-剪切联配(1)
1、用一个基因组内的相关蛋白质去重构另一个基因组中的基因的外显子-内含子结构,可通过几种方式开始:在可能的供体和受体点之间选择所有的推定的外显子,寻找所有与目标蛋白质相似的子字符串。通过试图不丢失真正外显子的方法筛选这个集合,一个可能含有许多假外显子的候选外显子集合被保留了下来。2、尽管只利用统计过程很难区分好与坏,但我们可以利用与目标蛋白质的联配来帮助搜索。3、给定候选候选外显子集合和一个目标蛋原创 2015-10-27 17:00:16 · 2003 阅读 · 0 评论 -
基因检测-外显子链接问题
人类大部分基因组序列都是被垃圾DNA序列分隔成一段段,给定一个已知的目标蛋白质和基因组序列,在该基因组序列中找出一组子字符串(候选外显子),使得其拼接(剪接)与目标蛋白质最匹配(即去掉垃圾DNA序列)。一个强力方法是寻找基因组序列与目标蛋白质序列间的所有局部相似性。若第一个取自基因组序列的子字符串展示了充分相似性于目标蛋白质,那么这个子字符串可被认为是一个推定的外显子。将推定外显子结构化为基因组序原创 2015-10-27 17:02:23 · 2209 阅读 · 0 评论 -
基因检测-基因系统聚类
一、下面的HIERARCHICALCLUSTERING算法需要输入一个n*n的距离矩阵d,并产生数据的n个不同的分划,以树的形式输出。HIERARCHICALCLUSTERING(d,n)形成n个类,每个类含有一个元素构建图T,为每个类分配一个单独的顶点while 存在多于一个类找到最近的2个类C1和C2将C1和C2合并成一个新的类C,C含有|C1|+|C2|个元素计算C与其他各类的距离在图T中增原创 2015-10-27 17:04:18 · 2717 阅读 · 0 评论 -
数学之路(机器学习实践指南)-文本挖掘与NLP(1)
据 P国外 S媒体报道 N, X美国 NS科学家 N近日 T获得 V了 UL2800 M万美元 M( X约合 VN1.84 M亿 M人民币 N) X的 UJ研究 VN经费 VN, X用于 V设计 VN一款 M能 V与 P人类 N识别 V图形 N速度 N相媲美 Z的 UJ计算机系统 N情报机构 N要 V处理 V的 UJ数据 N越来越 D多 M, X这些 R数据 N都 D必须 D进行 V迅速 AD分析原创 2016-01-27 10:36:33 · 2255 阅读 · 3 评论 -
数学之路-SAS分析(2)
算术平均值 data sales;input id$ m1-m4;average=mean(of m1-m4);cards;A0001 120 180 60 187A0002 980 1740 730 1920A0003 110 1002 705 1098;proc print;run;本博客所有内容是原创,如果转载请注明来源http://blog.csdn.net/myhaspl/输出:原创 2015-04-03 09:49:23 · 2776 阅读 · 0 评论 -
数学之路-SPSS备忘(1)
1、导入数据。新建脚本,打开地震数据。打开excel文件GET DATA/TYPE=XLSX /FILE='H:\mybook\机器学习第3版-2\src\4.5_month.xlsx' /SHEET=name '4.5_month' /CELLRANGE=full /READNAMES=on /ASSUMEDSTRWIDTH=32767. EXECUTE. DATASET N原创 2015-03-24 15:57:58 · 2104 阅读 · 0 评论 -
数学之路-sas备忘(13)
libname sastemp 'e:/sastemp/';option user=sastemp;*指定接下来的逻辑库引用名;page;*日志从新的一页开始;data sales;input id$ price;skip 6;*日志中产生5个空行;cards;1 23.32 99.233 91.01;proc print;run;x 'dir .';*执行操作系统命令;本博客所有内容是原创,如果原创 2015-03-25 10:54:53 · 1175 阅读 · 0 评论 -
数学之路-SPSS备忘(2)
构造数据学生数据 DATA LIST /ID 1-3age 4-8.BEGIN DATA00125002650032800445END DATA.LIST. 输出 ID age 1 25 2 65 3 28 4 45 Number of cases read: 4 Number of cases listed: 4原创 2015-03-25 17:02:51 · 1469 阅读 · 0 评论 -
数学之路-sas备忘(14)
sas日期格式data _null_; x='7jan2012'd; put x yymm7.; put x yymmc7.; put x yymmd7.; put x yymmn6.; put x yymmp7.; put x yymms7.; put x yymon7.; put x mmddyy10.; put x yymm原创 2015-03-27 15:44:19 · 2079 阅读 · 0 评论 -
数学之路-sas备忘(15)
DATETIMEw. InformatReads datetime values in the form ddmmmyy hh:mm:ss.ss or ddmmmyyyy hh:mm:ss.ss.SyntaxDATETIMEw.Syntax Descriptionwspecifies the width of the input field.Default 18Range 13–40Details原创 2015-03-28 16:10:48 · 3832 阅读 · 0 评论 -
数学之路-sas备忘(16)
data _null_;mydate ='17MAR13'd;put mydate YYMMDDP10.;put mydate YYMMDDN8.;put mydate YYMMDDC10.;put mydate YYMMDD10.;run;本博客所有内容是原创,如果转载请注明来源http://blog.csdn.net/myhaspl/原创 2015-03-30 12:06:50 · 2610 阅读 · 0 评论 -
数学之路-sas备忘(17)
Writes SAS date values in the form yy>yymmdd or yy>yy-mm-dd, where the x in the format name is a character that represents the special character that separates原创 2015-03-31 11:45:04 · 2068 阅读 · 0 评论 -
数学之路-sas备忘(18)
data _null_;x=15.63;y=15.13;xx=ceil(x);yy=ceil(y);put xx= yy=;xx=floor(x);yy=floor(y);put xx= yy=;xx=int(x);yy=int(y);put xx= yy=;xx=round(x,0.1);yy=round(y,0.1);put xx= yy=;z=trunc(1/3,3);*按3个字节存储;pu原创 2015-04-01 14:51:44 · 1241 阅读 · 0 评论 -
数学之路-SAS分析(1)
卡方分布(chi-square distribution, χ²-distribution)是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。若k个随机变量、……、是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和被原创 2015-04-01 15:20:29 · 2836 阅读 · 0 评论 -
数学之路-sas备忘(9)
view视图libname saslib "k:\sas";data saslib.testview4/view=saslib.testview4; set saslib.test4;run;proc print data=saslib.test4 noobs label;run;proc sql; select testview4.id as 学号 ,testview4.scor原创 2015-03-06 23:07:12 · 1487 阅读 · 0 评论 -
数学之路-sas备忘(10)
merge合并2个或2个以上的数据集。libname saslib "k:\docs\机器学习第3版\底稿\src\sas";data saslib.goodsprice; input id name$ price 6.2;datalines; 1 鼠标 35.6 2 键盘 28.95 3 鼠标垫 8.2 4 耳麦 29.7 ;data saslib.goodsquantity;原创 2015-03-08 12:57:39 · 1475 阅读 · 0 评论 -
数学之路-python数据处理(2)
插入列# -*- coding: utf-8 -*-"""Created on Mon Mar 09 11:21:02 2015@author: myhaspl@myhaspl.com"""print u"python数据分析\n"import pandas as pdimport numpy as np#构造商品销量数据mydf = pd.DataFrame({u'商品地区编码':[1,1,3,原创 2015-03-10 10:43:06 · 2088 阅读 · 1 评论 -
数学之路-分布式计算-disco(4)
第一个参数iter是一个迭代器,涉及被map函数产生的键和值,它们是reduce实例。在本例中,单词随机被委托给不同的reduce实例,然后,要单词相同,处理它的reduce也相同,可确保最终合计是正确的。第二个参数params与map函数中一致,在此,仅简单使用disco.util.kvgroup()来提取每个单词统计计数,累计计数,yield(产生)结果。运行作业下面开始运行作业,可使用大量参原创 2014-12-18 23:09:48 · 1720 阅读 · 0 评论 -
数学之路-分布式计算-hadoop、python与R(3)
二、ubuntu 12.04hadoop2.6配置与安装1、java7配置#su#addusermyhaspl下面增加su权限使得myhaspl用户属于sudo组#vi/etc/groupsudo:x:27:,myhaspl然后重新启动#reboot 转到myhaspl用户,开始下载解压java。本博客所有内容是原创,如果转载请注明来源http://blog.csdn.net/myhaspl/#s原创 2014-12-22 11:26:38 · 2618 阅读 · 0 评论 -
数学之路-R-GUI编程(1)
> install.packages("RGtk2")--- 在此連線階段时请选用CRAN的鏡子 ---试开URL’http://mirror.bjtu.edu.cn/cran/bin/windows/contrib/3.1/RGtk2_2.20.31.zip'Content type 'application/zip' length 13920060 bytes (13.3 Mb)打开了URLd原创 2014-12-30 19:58:59 · 2182 阅读 · 0 评论 -
数学之路-python计算-Theano(1)
Theano是一个Python库,可定义、优化和计算数学表达式,用它可与手工使用C解决问题竞争,包括大数据。它能多个数量级超越纯在CPU上执行的C,因为可利用GPU计算。Theano应用了对商业非常友好的BSD开源协议,由LISA实验室写成。 下载Theanohttps://pypi.python.org/pypi/Theano#downloadsE:\Theano-0.6.0>cd Theano原创 2015-01-22 15:03:08 · 2484 阅读 · 0 评论 -
数学之路-R语言备忘(1)
1、aggregate()对分组中的每个变量调用tapply()2、dataframetapply()针对数据框进行分组并运算split()同上,但仅分组,不计算3、listlapply()4、vector、matrixapply针对矩阵和向量原创 2015-02-11 17:06:31 · 1027 阅读 · 0 评论 -
数学之路-sas备忘(1)
简单的数据集输出日志85 libname saslib base 'E:\sasdata';NOTE: 已成功分配逻辑库引用名“SASLIB”,如下所示: 引擎: BASE 物理名: E:\sasdata8687 data saslib.Student;88 input name $ Age Score;89 datal原创 2015-02-13 22:24:21 · 2222 阅读 · 0 评论 -
数学之路-sas备忘(2)
DATA数据步:创建SAS数据集PROC过程步:分析数据DATA步读取并修改数据并拥有一个内置循环语句,数据步每行第变量读取本博客所有内容是原创,如果转载请注明来源http://blog.csdn.net/myhaspl/OPTIONS语句指定系统选项:下面是一些可能用到的一般系统选项CENTER|NOCENTER输出是否居中,还是左对齐。默认居中DATE|NODATE今天的日期是否出现在输出的顶原创 2015-02-16 11:21:57 · 1068 阅读 · 0 评论 -
数学之路-sas备忘(3)
构造文本文件从文本文件中创建临时SAS数据集在编辑器中输入数据1 liuhui 28 98.5 88.92 zhangfang 31 88.2 81.83 wangwu 29 78.2 89.14 lisi 32 66 78.1将编辑器中的数据另存为dat文件data myclass; infile "J:\docs\机器学习第3版\底稿\src\sas\student.dat"; in原创 2015-02-19 10:10:16 · 1630 阅读 · 0 评论 -
数学之路-sas备忘(4)
5、excel文件读入 *读入EXCEL文件到临时数据集class1*;procimport OUT=work.class1dbms=EXCEL REPLACE DATAFILE="J:\docs\机器学习第3版\底稿\src\sas\student_excel.xlsx"; SHEET="student"; GETNAMES=YES;RUN;*显示数据*原创 2015-02-19 11:04:41 · 1665 阅读 · 0 评论 -
数学之路-sas备忘(5)
导入数据与导出数据PROC IMPORTDATAFILE="文件名" //规定要导入文件的完整路径和文件名OUT=逻辑引用库名.数据集DBMS=导入文件类型 //如果有这个标志,则说明覆盖存在的SAS数据集导入文件选项PROC EXPORTDATAFILE="文件名"原创 2015-02-21 12:15:52 · 1947 阅读 · 0 评论 -
数学之路-sas备忘(7)
显示变量名libname saslib "H:\ sas";/*varnum表示按观测位置排序变量名,默认为按字母顺序*/data saslib.Student; input name $ Age Score; datalines;李四 25 85.6王五 27 98.12张三 30 78;proc contents varnum data=saslib.Student;r原创 2015-02-27 17:22:13 · 1638 阅读 · 0 评论 -
数学之路-python数据处理(1)
Pandas基础import pandas aspdimport numpy as np#数字序列myseries=pd.Series([1,3,5,np.nan,6,8])print myseries#日期序列mydate=pd.date_range('20150101',periods=42)print mydate生成序列结果如下:0 11 32 53 NaN4 6原创 2015-03-09 12:08:07 · 1877 阅读 · 0 评论 -
数学之路-sas备忘(6)
连接外部数据CONNECT TO 数据库类型选项 连接ACCESS:proc sql;connect to access as db(path=”e:\xx.mdb”);连接excel:proc sql;connect to EXCEL(PATH="k:\docs\机器学习第3版\底稿\src\sas\student_excel.xlsx" GETNAMES=YES);SELECT * FROM原创 2015-02-26 21:31:42 · 1292 阅读 · 0 评论 -
数学之路-sas备忘(8)
输入与输出格式libname saslib "H:\sas";data saslib.test4; input id$ name:$char15. score birthday; label id="学号" name="姓名" score="成绩" birthday="生日"; format score COMMA5.2 birthday原创 2015-03-02 15:31:55 · 1270 阅读 · 0 评论 -
数学之路-分布式计算-hdfs(3)
可通过部署一对主/备NameNode实现NameNode高可用性(HA),主/备NN都能访问edits的WAL,因此将edtis放置在共享存储设备上,使用NFS实现这种共享存储。主/备NN可配置为手动或自动故障切换模式,默认为手动故障切换模式。通常来说,次NN会同时承担备NN的角色,由于NN在内存中的元数据大小限制,可以使用NN联盟,由一组各自独立的NN组成,每个NN负责管理目录结构的不同部分,N原创 2014-12-15 08:15:08 · 1863 阅读 · 0 评论 -
数学之路-分布式计算-storm(3)
5、安装zookeeper本博客所有内容是原创,如果转载请注明来源http://blog.csdn.net/myhaspl/myhaspl@aaayun:~/jzmq-master$cd ..myhaspl@aaayun:~$wget http://apache.fayea.com/zookeeper/zookeeper-3.3.6/zookeeper-3.3.6.tar.gz myhaspl@a原创 2014-12-17 18:13:29 · 1800 阅读 · 0 评论