2016年03月_mmc2015

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Complete Guide to Parameter Tuning in XGBoost (with codes in Python)

http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/IntroductionIf things don’t go your way in predictive modeling, use XGboost.

2016-03-30 22:06:21 3494

原创挖掘DBLP作者合作关系，FP-Growth算法实践（5）：挖掘研究者合作关系

就是频繁项集挖掘，FP-Growth算法。先产生headerTable：数据结构（其实也是调了好几次代码才确定的，因为一开始总有想不到的东西）：entry: entry: {authorName: frequence, firstChildPointer, startYear, endYear}def CreateHeaderTable(tranDB, minSupport=1

2016-03-30 21:22:44 1682 3

原创挖掘DBLP作者合作关系，FP-Growth算法实践（4）：挖掘每个会议的核心研究者

在只有【论文标题、发布时间、作者、会议名称】这四种信息的情况下，首先提取出所有这四种信息：代码产生的结果如下，数据结构类似于headerTable，看结果就知道了，不再介绍：authorDict={} #{authorName: total(frequence, startYear, endYear), {eachConf(frequence, startYear, endYear)}}

2016-03-30 21:05:29 1618

原创挖掘DBLP作者合作关系，FP-Growth算法实践（3）：挖掘任务、思路简介

首先是挖掘任务：思路明天写。。。。。

2016-03-28 23:25:32 1123

原创挖掘DBLP作者合作关系，FP-Growth算法实践（2）：从DBLP数据集中提取信息，三种源码（dom，sax，string）

上篇文章：http://blog.csdn.net/mmc2015/article/details/50988375 （挖掘DBLP作者合作关系，FP-Growth算法实践（1）：从DBLP数据集中提取目标信息（会议、作者等））大家反映代码不能用，主要是太慢了，好吧，我也承认慢，在内存构造树，肯定的！这次给出另外两种。为了完整，先给出dom：#do not use

2016-03-28 23:21:35 1921 3

原创挖掘DBLP作者合作关系，FP-Growth算法实践（1）：从DBLP数据集中提取目标信息（会议、作者等）

首先从官网下载DBLP数据集http://dblp.uni-trier.de/xml/只需下载 dblp.xml.gz 解压后得到1G多dblp.xml文件！文件略大。从原始数据中提取样本：r=open("dblp.xml","r")w=open("dblpExample.xml","w")for i in range(30): print

2016-03-26 20:05:19 5129 2

原创 Keras（1）：Keras安装与简介

keras在theano之上，在学习keras之前，先理解了这几篇内容：http://blog.csdn.net/mmc2015/article/details/42222075（LR）http://www.deeplearning.net/tutorial/gettingstarted.html和http://www.deeplearning.net/tutorial/logreg.

2016-03-25 09:29:35 21896

原创 Theano（7）：Theano循环语句，Scan

先给个简单的例子，之后再详细举例：>>> x=T.vector('x')>>> y=T.scalar('y')>>> addEach, updates=theano.scan(lambda xi: y+xi, sequences=x)>>> addFun=theano.function(inputs=[x,y],outputs=[addEach])>>> z=addFun([1,2,3

2016-03-22 11:16:36 1118

原创 Theano（6）：Theano条件语句，IfElse vs Switch

http://deeplearning.net/software/theano/tutorial/conditions.htmlIfElse vs SwitchBoth ops build a condition over symbolic variables.IfElse takes a boolean condition and two variables

2016-03-22 11:14:40 2357

原创词语相似度计算：6、实验报告

词汇相似度计算报告摘要 1一、简介 2二、工具和资源说明 5三、实验方法 53.1、方法1 53.2、方法2 63.3、方法3 63.4、方法4 73.5、方法5 73.6、方法6 8四、结果比较与分析 8五、结论与讨论 12 摘要：词汇相似度计算是MLP领域最基本的任务，也是其它更上层（词语消歧、句子翻译、文章摘要）工作的基础。另一方面，从

2016-03-21 10:33:07 4871 7

原创词语相似度计算：5、训练各种相似度模型（LR，RF，NMF，LDA等）【待续】

待续，主要是作业，不能提前放呀，前面很多基础工作都已经给大家铺好路了。。。。

2016-03-21 10:26:29 3635 2

原创词语相似度计算：4、提取文本tf、tfidf特征

还是sklearn，不多做解释：from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer#!usr/bin/env python# -*- coding:utf-8 -*-import pandas as pdimport numpy as npfrom sklear

2016-03-21 10:20:34 3409 2

原创词语相似度计算：3、使用urllib爬取wiki文章，使用beautifulSoup解析html

详细介绍参考：http://blog.csdn.net/mmc2015/article/details/50923309完整代码供大家参考。。。。[python] view plain copy #!usr/bin/env # -*-coding:utf-8 -*- import

2016-03-21 10:18:04 932

原创词语相似度计算：2、使用NLTK和WordNet计算词语相似度

相关解释参考：http://blog.csdn.net/mmc2015/article/details/50939265代码写得比较水。。。。仅供大家参考：#!usr/bin/env python# -*- coding:utf-8 -*-from nltk.corpus import wordnet as wnimport pandas as pdimport

2016-03-21 10:12:36 10859 6

原创词语相似度计算：1、安装NLTK和下载WordNet语料库；WordNet的使用

NLTK在anaconda中有，WordNet语料库需要手动下载。这里主要介绍如何下载wordnet语料库。。。In [1]: from nltk.corpus import wordnet as wnIn [2]: wn.syssets('love')Traceback (most recent call last): File "", line 1, in

2016-03-21 10:04:58 19323 2

原创 windows下关闭指定端口服务

有时候你想用一个端口，但是发现被其他服务占用了，所以必须关闭该端口，然后启动你想要的服务，令后者使用该端口。出现了几次这个问题，记录一下好了，要不每次都要查（关键还是懒得记这些命令）：C:\Users\mmc> tasklist|findstr "80"wininit.exe 580 Services

2016-03-20 22:30:47 10160

原创 python的【爬虫】：使用urllib爬取wiki文章，使用beautifulSoup解析html

之所以写这个，是因为搜不到关于wiki爬取方面的教程。先学习：正则表达式，http://python.jobbole.com/81346/BeautifulSoup（html文档解析器），http://python.jobbole.com/81349/爬取糗事百科实例，http://python.jobbole.com/81351/现

2016-03-18 14:52:26 7985 1

原创 Theano（3）：Theano【数据类型】与【代码初尝试】

http://deeplearning.net/software/theano/tutorial/adding.html常见的数据类型：byte: bscalar, bvector, bmatrix, brow, bcol, btensor3, btensor416-bit integers: wscalar, wvector, wmatrix, wrow, wcol,

2016-03-16 12:03:52 2329

原创 Theano（2）：Theano简介【待更新】

第一篇博客说theano是一个深度学习库，其实在大家的眼里：最近正在为theano抠大脑，感觉它更像是一个代数符号验算系统，写起来有点写FPGA的感觉。它本身并没有说自己跟神精网络有什么关系，theano这个库对自己的定义是这样的：Theano is a Python library that allows you to define, optimize, andevalu

2016-03-16 11:26:46 5319

原创 python的【字典dict】：创建、访问、更新、删除；查看键、值、键值对；遍历；排序

字典是另一种可变容器模型，且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割，每个对之间用逗号(,)分割，整个字典包括在花括号({})中；字典值可以没有限制地取任何python对象，既可以是标准的对象，也可以是用户定义的；但键不行，如果同一个键被赋值两次，后一个值会被记住。值可以取任何数据类型，但键必须是不可变的，如字符串，数字或元组（列表

2016-03-02 09:46:38 29782

挖掘DBLP作者合作关系，FP-Growth算法实践

挖掘DBLP作者合作关系，FP-Growth算法实践包括三个代码，一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有，很好用，已测试。

2016-11-07

dblp测试数据集，包括十六个会议的【部分内容】，使用SDM, ICDM, ECML-PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议，至少从2000年至今的所有数据。应用代码参考：http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26