- 博客(20)
- 资源 (15)
- 收藏
- 关注
转载 Complete Guide to Parameter Tuning in XGBoost (with codes in Python)
http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/IntroductionIf things don’t go your way in predictive modeling, use XGboost.
2016-03-30 22:06:21 3494
原创 挖掘DBLP作者合作关系,FP-Growth算法实践(5):挖掘研究者合作关系
就是频繁项集挖掘,FP-Growth算法。先产生headerTable:数据结构(其实也是调了好几次代码才确定的,因为一开始总有想不到的东西):entry: entry: {authorName: frequence, firstChildPointer, startYear, endYear}def CreateHeaderTable(tranDB, minSupport=1
2016-03-30 21:22:44 1682 3
原创 挖掘DBLP作者合作关系,FP-Growth算法实践(4):挖掘每个会议的核心研究者
在只有【论文标题、发布时间、作者、会议名称】这四种信息的情况下,首先提取出所有这四种信息:代码产生的结果如下,数据结构类似于headerTable,看结果就知道了,不再介绍:authorDict={} #{authorName: total(frequence, startYear, endYear), {eachConf(frequence, startYear, endYear)}}
2016-03-30 21:05:29 1618
原创 挖掘DBLP作者合作关系,FP-Growth算法实践(2):从DBLP数据集中提取信息,三种源码(dom,sax,string)
上篇文章:http://blog.csdn.net/mmc2015/article/details/50988375 (挖掘DBLP作者合作关系,FP-Growth算法实践(1):从DBLP数据集中提取目标信息(会议、作者等))大家反映代码不能用,主要是太慢了,好吧,我也承认慢,在内存构造树,肯定的!这次给出另外两种。为了完整,先给出dom:#do not use
2016-03-28 23:21:35 1921 3
原创 挖掘DBLP作者合作关系,FP-Growth算法实践(1):从DBLP数据集中提取目标信息(会议、作者等)
首先从官网下载DBLP数据集http://dblp.uni-trier.de/xml/只需下载 dblp.xml.gz 解压后得到1G多dblp.xml文件!文件略大。从原始数据中提取样本:r=open("dblp.xml","r")w=open("dblpExample.xml","w")for i in range(30): print
2016-03-26 20:05:19 5129 2
原创 Keras(1):Keras安装与简介
keras在theano之上,在学习keras之前,先理解了这几篇内容:http://blog.csdn.net/mmc2015/article/details/42222075(LR)http://www.deeplearning.net/tutorial/gettingstarted.html和http://www.deeplearning.net/tutorial/logreg.
2016-03-25 09:29:35 21896
原创 Theano(7):Theano循环语句,Scan
先给个简单的例子,之后再详细举例:>>> x=T.vector('x')>>> y=T.scalar('y')>>> addEach, updates=theano.scan(lambda xi: y+xi, sequences=x)>>> addFun=theano.function(inputs=[x,y],outputs=[addEach])>>> z=addFun([1,2,3
2016-03-22 11:16:36 1118
原创 Theano(6):Theano条件语句,IfElse vs Switch
http://deeplearning.net/software/theano/tutorial/conditions.htmlIfElse vs SwitchBoth ops build a condition over symbolic variables.IfElse takes a boolean condition and two variables
2016-03-22 11:14:40 2357
原创 词语相似度计算:6、实验报告
词汇相似度计算报告摘要 1一、简介 2二、工具和资源说明 5三、实验方法 53.1、方法1 53.2、方法2 63.3、方法3 63.4、方法4 73.5、方法5 73.6、方法6 8四、结果比较与分析 8五、结论与讨论 12 摘要:词汇相似度计算是MLP领域最基本的任务,也是其它更上层(词语消歧、句子翻译、文章摘要)工作的基础。另一方面,从
2016-03-21 10:33:07 4871 7
原创 词语相似度计算:5、训练各种相似度模型(LR,RF,NMF,LDA等)【待续】
待续,主要是作业,不能提前放呀,前面很多基础工作都已经给大家铺好路了。。。。
2016-03-21 10:26:29 3635 2
原创 词语相似度计算:4、提取文本tf、tfidf特征
还是sklearn,不多做解释:from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer#!usr/bin/env python# -*- coding:utf-8 -*-import pandas as pdimport numpy as npfrom sklear
2016-03-21 10:20:34 3409 2
原创 词语相似度计算:3、使用urllib爬取wiki文章,使用beautifulSoup解析html
详细介绍参考:http://blog.csdn.net/mmc2015/article/details/50923309完整代码供大家参考。。。。[python] view plain copy #!usr/bin/env # -*-coding:utf-8 -*- import
2016-03-21 10:18:04 932
原创 词语相似度计算:2、使用NLTK和WordNet计算词语相似度
相关解释参考:http://blog.csdn.net/mmc2015/article/details/50939265代码写得比较水。。。。仅供大家参考:#!usr/bin/env python# -*- coding:utf-8 -*-from nltk.corpus import wordnet as wnimport pandas as pdimport
2016-03-21 10:12:36 10859 6
原创 词语相似度计算:1、安装NLTK和下载WordNet语料库;WordNet的使用
NLTK在anaconda中有,WordNet语料库需要手动下载。这里主要介绍如何下载wordnet语料库。。。In [1]: from nltk.corpus import wordnet as wnIn [2]: wn.syssets('love')Traceback (most recent call last): File "", line 1, in
2016-03-21 10:04:58 19323 2
原创 windows下关闭指定端口服务
有时候你想用一个端口,但是发现被其他服务占用了,所以必须关闭该端口,然后启动你想要的服务,令后者使用该端口。出现了几次这个问题,记录一下好了,要不每次都要查(关键还是懒得记这些命令):C:\Users\mmc> tasklist|findstr "80"wininit.exe 580 Services
2016-03-20 22:30:47 10160
原创 python的【爬虫】:使用urllib爬取wiki文章,使用beautifulSoup解析html
之所以写这个,是因为搜不到关于wiki爬取方面的教程。先学习:正则表达式,http://python.jobbole.com/81346/BeautifulSoup(html文档解析器),http://python.jobbole.com/81349/爬取糗事百科实例,http://python.jobbole.com/81351/现
2016-03-18 14:52:26 7985 1
原创 Theano(3):Theano【数据类型】与【代码初尝试】
http://deeplearning.net/software/theano/tutorial/adding.html常见的数据类型:byte: bscalar, bvector, bmatrix, brow, bcol, btensor3, btensor416-bit integers: wscalar, wvector, wmatrix, wrow, wcol,
2016-03-16 12:03:52 2329
原创 Theano(2):Theano简介【待更新】
第一篇博客说theano是一个深度学习库,其实在大家的眼里:最近正在为theano抠大脑,感觉它更像是一个代数符号验算系统,写起来有点写FPGA的感觉。它本身并没有说自己跟神精网络有什么关系,theano这个库对自己的定义是这样的:Theano is a Python library that allows you to define, optimize, andevalu
2016-03-16 11:26:46 5319
原创 python的【字典dict】:创建、访问、更新、删除;查看键、值、键值对;遍历;排序
字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中 ;字典值可以没有限制地取任何python对象,既可以是标准的对象,也可以是用户定义的;但键不行,如果同一个键被赋值两次,后一个值会被记住。值可以取任何数据类型,但键必须是不可变的,如字符串,数字或元组(列表
2016-03-02 09:46:38 29782
dblp测试数据集
2016-03-26
entity linking源码
2016-01-17
机器学习数据集,20news-bydate.rar
2015-09-06
java读xml文件jar包
2015-08-22
javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar
2015-08-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人