自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (15)
  • 收藏
  • 关注

转载 Complete Guide to Parameter Tuning in XGBoost (with codes in Python)

http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/IntroductionIf things don’t go your way in predictive modeling, use XGboost.  

2016-03-30 22:06:21 3494

原创 挖掘DBLP作者合作关系,FP-Growth算法实践(5):挖掘研究者合作关系

就是频繁项集挖掘,FP-Growth算法。先产生headerTable:数据结构(其实也是调了好几次代码才确定的,因为一开始总有想不到的东西):entry: entry: {authorName: frequence, firstChildPointer, startYear, endYear}def CreateHeaderTable(tranDB, minSupport=1

2016-03-30 21:22:44 1682 3

原创 挖掘DBLP作者合作关系,FP-Growth算法实践(4):挖掘每个会议的核心研究者

在只有【论文标题、发布时间、作者、会议名称】这四种信息的情况下,首先提取出所有这四种信息:代码产生的结果如下,数据结构类似于headerTable,看结果就知道了,不再介绍:authorDict={} #{authorName: total(frequence, startYear, endYear), {eachConf(frequence, startYear, endYear)}}

2016-03-30 21:05:29 1618

原创 挖掘DBLP作者合作关系,FP-Growth算法实践(3):挖掘任务、思路简介

首先是挖掘任务:思路明天写。。。。。

2016-03-28 23:25:32 1123

原创 挖掘DBLP作者合作关系,FP-Growth算法实践(2):从DBLP数据集中提取信息,三种源码(dom,sax,string)

上篇文章:http://blog.csdn.net/mmc2015/article/details/50988375 (挖掘DBLP作者合作关系,FP-Growth算法实践(1):从DBLP数据集中提取目标信息(会议、作者等))大家反映代码不能用,主要是太慢了,好吧,我也承认慢,在内存构造树,肯定的!这次给出另外两种。为了完整,先给出dom:#do not use

2016-03-28 23:21:35 1921 3

原创 挖掘DBLP作者合作关系,FP-Growth算法实践(1):从DBLP数据集中提取目标信息(会议、作者等)

首先从官网下载DBLP数据集http://dblp.uni-trier.de/xml/只需下载 dblp.xml.gz 解压后得到1G多dblp.xml文件!文件略大。从原始数据中提取样本:r=open("dblp.xml","r")w=open("dblpExample.xml","w")for i in range(30): print

2016-03-26 20:05:19 5129 2

原创 Keras(1):Keras安装与简介

keras在theano之上,在学习keras之前,先理解了这几篇内容:http://blog.csdn.net/mmc2015/article/details/42222075(LR)http://www.deeplearning.net/tutorial/gettingstarted.html和http://www.deeplearning.net/tutorial/logreg.

2016-03-25 09:29:35 21896

原创 Theano(7):Theano循环语句,Scan

先给个简单的例子,之后再详细举例:>>> x=T.vector('x')>>> y=T.scalar('y')>>> addEach, updates=theano.scan(lambda xi: y+xi, sequences=x)>>> addFun=theano.function(inputs=[x,y],outputs=[addEach])>>> z=addFun([1,2,3

2016-03-22 11:16:36 1118

原创 Theano(6):Theano条件语句,IfElse vs Switch

http://deeplearning.net/software/theano/tutorial/conditions.htmlIfElse vs SwitchBoth ops build a condition over symbolic variables.IfElse takes a boolean condition and two variables

2016-03-22 11:14:40 2357

原创 词语相似度计算:6、实验报告

词汇相似度计算报告摘要 1一、简介 2二、工具和资源说明 5三、实验方法 53.1、方法1 53.2、方法2 63.3、方法3 63.4、方法4 73.5、方法5 73.6、方法6 8四、结果比较与分析 8五、结论与讨论 12 摘要:词汇相似度计算是MLP领域最基本的任务,也是其它更上层(词语消歧、句子翻译、文章摘要)工作的基础。另一方面,从

2016-03-21 10:33:07 4871 7

原创 词语相似度计算:5、训练各种相似度模型(LR,RF,NMF,LDA等)【待续】

待续,主要是作业,不能提前放呀,前面很多基础工作都已经给大家铺好路了。。。。

2016-03-21 10:26:29 3635 2

原创 词语相似度计算:4、提取文本tf、tfidf特征

还是sklearn,不多做解释:from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer#!usr/bin/env python# -*- coding:utf-8 -*-import pandas as pdimport numpy as npfrom sklear

2016-03-21 10:20:34 3409 2

原创 词语相似度计算:3、使用urllib爬取wiki文章,使用beautifulSoup解析html

详细介绍参考:http://blog.csdn.net/mmc2015/article/details/50923309完整代码供大家参考。。。。[python] view plain copy #!usr/bin/env  # -*-coding:utf-8 -*-        import

2016-03-21 10:18:04 932

原创 词语相似度计算:2、使用NLTK和WordNet计算词语相似度

相关解释参考:http://blog.csdn.net/mmc2015/article/details/50939265代码写得比较水。。。。仅供大家参考:#!usr/bin/env python# -*- coding:utf-8 -*-from nltk.corpus import wordnet as wnimport pandas as pdimport

2016-03-21 10:12:36 10859 6

原创 词语相似度计算:1、安装NLTK和下载WordNet语料库;WordNet的使用

NLTK在anaconda中有,WordNet语料库需要手动下载。这里主要介绍如何下载wordnet语料库。。。In [1]: from nltk.corpus import wordnet as wnIn [2]: wn.syssets('love')Traceback (most recent call last): File "", line 1, in

2016-03-21 10:04:58 19323 2

原创 windows下关闭指定端口服务

有时候你想用一个端口,但是发现被其他服务占用了,所以必须关闭该端口,然后启动你想要的服务,令后者使用该端口。出现了几次这个问题,记录一下好了,要不每次都要查(关键还是懒得记这些命令):C:\Users\mmc> tasklist|findstr "80"wininit.exe                    580 Services                  

2016-03-20 22:30:47 10160

原创 python的【爬虫】:使用urllib爬取wiki文章,使用beautifulSoup解析html

之所以写这个,是因为搜不到关于wiki爬取方面的教程。先学习:正则表达式,http://python.jobbole.com/81346/BeautifulSoup(html文档解析器),http://python.jobbole.com/81349/爬取糗事百科实例,http://python.jobbole.com/81351/现

2016-03-18 14:52:26 7985 1

原创 Theano(3):Theano【数据类型】与【代码初尝试】

http://deeplearning.net/software/theano/tutorial/adding.html常见的数据类型:byte: bscalar, bvector, bmatrix, brow, bcol, btensor3, btensor416-bit integers: wscalar, wvector, wmatrix, wrow, wcol,

2016-03-16 12:03:52 2329

原创 Theano(2):Theano简介【待更新】

第一篇博客说theano是一个深度学习库,其实在大家的眼里:最近正在为theano抠大脑,感觉它更像是一个代数符号验算系统,写起来有点写FPGA的感觉。它本身并没有说自己跟神精网络有什么关系,theano这个库对自己的定义是这样的:Theano is a Python library that allows you to define, optimize, andevalu

2016-03-16 11:26:46 5319

原创 python的【字典dict】:创建、访问、更新、删除;查看键、值、键值对;遍历;排序

字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中 ;字典值可以没有限制地取任何python对象,既可以是标准的对象,也可以是用户定义的;但键不行,如果同一个键被赋值两次,后一个值会被记住。值可以取任何数据类型,但键必须是不可变的,如字符串,数字或元组(列表

2016-03-02 09:46:38 29782

挖掘DBLP作者合作关系,FP-Growth算法实践

挖掘DBLP作者合作关系,FP-Growth算法实践 包括三个代码,一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有,很好用,已测试。

2016-11-07

dblp测试数据集

dblp测试数据集, 包括十六个会议的【部分内容】, 使用SDM, ICDM, ECML-­PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议,至少从2000年至今的所有数据。 应用代码参考:http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26

entity linking源码

使用lucene、lingpipe做实体连接(Entity Linking)。 数据来自dbpidia。 原始博客参考: http://blog.csdn.net/mmc2015/article/category/5795687 绝对值得参考。

2016-01-17

sql server 2008安装教程

sql server 2008安装教程,绝对详细。 每一步一个图。 不会的请留言,

2015-09-12

机器学习数据集,20news-bydate.rar

主要是解决这里的问题:http://blog.csdn.net/mmc2015/article/details/47971253#reply。数据集下载不下来,还是用现成的吧。

2015-09-06

20news-bydate.tar.gz

机器学习;数据集;20news; 机器学习数据集,主要是为不能用程序正常下载的同学准备。

2015-09-06

java读xml文件jar包

java读xml文件jar包,关于如何读写XML,参考:http://blog.csdn.net/mmc2015/article/details/47860133

2015-08-22

javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar

javaweb连接数据库包 mysql-connector-java-5.1.27-bin.jar

2015-08-15

java操作excel包 jxl.jar

java操作excel包 jxl.jar

2015-08-15

java发送邮件jar包 activation.jar

java发送邮件jar包 activation.jar

2015-08-15

java发送邮件jar包 mail.jar

mail.jar java 发送邮件的jar包

2015-08-15

mysql-connector-java-5.1.27-bin.jar

mysql-connector-java

2015-08-15

中文《机器学习实战》(注解版).pdf

中文版的《机器学习实战》。 和网上资源不同的是,加入了自己的注解,是初学者学习起来有重点,易理解。

2015-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除