自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 资源 (15)
  • 收藏
  • 关注

原创 scikit-learn:在实际项目中用到过的知识点(总结)

零、所有项目通用的:http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预测器)http://blog.csdn.net/mmc2015/article/details/46852755(加载自己的原始数据)(适合文本分类问题的 整个语料库加载)http://blog.csdn.net/mmc2

2015-07-27 08:34:35 7104 4

原创 scikit-learn:External Resources, Videos and Talks

参考:http://scikit-learn.org/stable/presentations.htmlscikit-learn的User Guide基本看完了(除了具体estimator部分),这里再摘录scikit-learn官方网站提供的额外资源,供之后学习。关于supervised learning和unsupervised learning中涉及到的estimator,用

2015-07-31 09:17:58 1114

原创 scikit-learn:3.5. Validation curves: plotting scores to evaluate models

参考:http://scikit-learn.org/stable/modules/learning_curve.htmlestimator's generalization error can be decomposed in terms ofbias, variance and noise. The bias of an estimator is its avera

2015-07-30 09:23:56 1901

原创 scikit-learn:3.4. Model persistence

参考:http://scikit-learn.org/stable/modules/model_persistence.html训练了模型之后,我们希望可以保存下来,遇到新样本时直接使用已经训练好的保存了的模型,而不用重新再训练模型。本节介绍pickle在保存模型方面的应用。(After training a scikit-learn model, it is desirable

2015-07-30 08:59:03 2042

原创 scikit-learn:3.3. Model evaluation: quantifying the quality of predictions

参考:http://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter三种方法评估模型的预测质量:Estimator score method: Estimators都有 score method作为默认的评估标准,不属于本节内容,具体参考不同estimators的文档。Scorin

2015-07-29 08:57:49 3080 2

原创 scikit-learn:3.2. Grid Search: Searching for estimator parameters

参考:http://scikit-learn.org/stable/modules/grid_search.htmlGridSearchCV通过(蛮力)搜索参数空间(参数的所有可能组合),寻找最好的 Cross-validation: evaluating estimator performance score对应的超参数(翻译文章参考:http://blog.csdn.net/m

2015-07-28 09:23:08 2525

原创 scikit-learn:3.1. Cross-validation: evaluating estimator performance

参考:http://scikit-learn.org/stable/modules/cross_validation.htmloverfitting很常见,所以提出使用test set来验证模型的performance。给个直观的例子:>>> import numpy as np>>> from sklearn import cross_validation>>> from s

2015-07-28 09:12:08 2305

原创 scikit-learn:3. Model selection and evaluation

参考:http://scikit-learn.org/stable/model_selection.html有待翻译,敬请期待:3.1. Cross-validation: evaluating estimator performance3.1.1. Computing cross-validated metrics3.1.1.1. Obtain

2015-07-27 21:07:24 1832

原创 scikit-learn:7. Computational Performance(计算效能<延迟和吞吐量>)

参考:http://scikit-learn.org/stable/modules/computational_performance.html对于有些应用,estimators的计算效能(主要指预测新样本时的延迟和吞吐量)非常关键,我们也考虑训练的效能,但由于训练可以offline,所以我们更关注预测时的效能问题。预测延迟(Prediction latency):预测一个新样本花

2015-07-27 20:58:12 1555

原创 scikit-learn:6. Strategies to scale computationally: bigger data

参考:http://scikit-learn.org/stable/modules/scaling_strategies.html对于examples、features(或者两者)数量很大的情况,挑战传统的方法要解决两个问题:内存和效率。办法是Out-of-core (or “external memory”) learning。有三种方法可以实现out-of-core,分别是:

2015-07-27 09:12:34 1574

原创 scikit-learn:4.8. Transforming the prediction target (y)

参考:http://scikit-learn.org/stable/modules/preprocessing_targets.html没什么好翻译的,直接给例子。1、Label binarizationLabelBinarizer is a utility class to help create a label indicator matrix from

2015-07-26 17:52:44 1460

原创 scikit-learn:4.7. Pairwise metrics, Affinities and Kernels

参考:http://scikit-learn.org/stable/modules/metrics.htmlThe sklearn.metrics.pairwise submodule implements utilities to evaluate pairwise distances(样本对的距离) or affinity of sets of samples(样本集的相似度)

2015-07-26 16:35:39 1998

原创 scikit-learn:4.6. Kernel Approximation

参考:http://scikit-learn.org/stable/modules/kernel_approximation.html之所以使用approximate explicit feature maps compared to the kernel trick, 是因为这样便于online learning,且能够适用于大数据集。但是还是建议,如果可能,approximat

2015-07-26 15:36:55 3310

原创 scikit-learn:4.5. Random Projection

参考:http://scikit-learn.org/stable/modules/random_projection.htmlThe sklearn.random_projection module 通过trading accuracy(可控的范围)来降维数据,提高效率。实现了两类unstructured random matrix:: Gaussian random mat

2015-07-26 12:47:59 3654

原创 scikit-learn:4.4. Unsupervised dimensionality reduction(降维)

参考:http://scikit-learn.org/stable/modules/unsupervised_reduction.html对于高维features,常常需要在supervised之前unsupervised dimensionality reduction。下面三节的翻译会在之后附上。4.4.1. PCA: principal compo

2015-07-26 11:14:55 1976

原创 Should I normalize/standardize/rescale the data

参考:http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html早上写了半篇博客,确实是半篇,提到了normalize/standardize/rescale feature,那么到底该不该normalize/standardize/rescale呢???简单总结一下这篇文章的观点(还是不翻译了吧,看原文更容易

2015-07-23 20:40:30 1747

原创 scikit-learn:4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value)

参考:http://scikit-learn.org/stable/modules/preprocessing.html主要讲述The sklearn.preprocessing package的utility function and transformer classes,包括standardization、normalization、binarization、encoding

2015-07-23 09:10:21 2492 3

原创 scikit-learn:4.2.3. Text feature extraction

http://scikit-learn.org/stable/modules/feature_extraction.html4.2节内容太多,因此将文本特征提取单独作为一块。1、the bag of words representation将raw data表示成长度固定的数字特征向量,scikit-learn提供了三个方式:tokenizing:给每一个token(字、词

2015-07-22 07:57:15 4173

原创 scikit-learn:4.2. Feature extraction(特征提取,不是特征选择)

http://scikit-learn.org/stable/modules/feature_extraction.html带病在网吧里。。。。。。写,求支持。。。1、首先澄清两个概念:特征提取和特征选择( Feature extraction is very different from Feature selection)。the former consis

2015-07-21 21:10:23 13066 3

原创 scikit-learn:4.1. Pipeline and FeatureUnion: combining estimators(特征与预测器结合;特征与特征结合)

http://scikit-learn.org/stable/modules/pipeline.html  1、pipeline和featureUnion是干什么的:pipeline之前已经介绍过了,结合transformer和estimator。featureUinon听名字就知道,将多个transformer的结果vector拼接成大的vector。两者的区别:前者相当

2015-07-21 20:29:32 3054 2

原创 《textanalytics》课程简单总结(4):课程总结

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。最后讲了文本分类,和plsa的几种变形,包括:opinion mining和sentiment analysis:Ordinal Logistic Regressionopinion mining和sentiment analysis:L

2015-07-19 09:22:01 1487

原创 《textanalytics》课程简单总结(3):text clustering

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。1、text clustering的总体思想:类似于topic mining,但要求每个text只有一个主题构成!To generate a document, firstchoose a theta_i according to

2015-07-19 08:57:25 1631

原创 《textanalytics》课程简单总结(2):topic mining

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。  1、“term as topic”有很多问题: 2、Improved Idea: Topic = Word Distribution:  3、定义问题(Probabilistic Topic Mining and Anal

2015-07-19 08:37:46 2080

原创 《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续)

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。3、挖掘Syntagmatic(组合)关系:有时间再总结。。

2015-07-18 11:47:13 2494

原创 《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。1、两种关系:Paradigmatic vs. Syntagmatic(聚合和组合)• Paradigmatic:  A & B have paradigmatic relation if they canbe substituted f

2015-07-18 10:37:57 7863

原创 读写文件:每次读入大文件中的一行、读写.CSV文件

读文件:传统的读法,全部读出,按行处理:fp=open("./ps.txt", "r");alllines=fp.readlines();fp.close();for eachline in alllines:    print eachline 推荐读取方法,使用文件迭代器 , 每次只读取和显示一行,读取大文件时应该这样:fp=open("./ps.txt",

2015-07-17 21:04:38 5135

原创 scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)

本文参考:http://scikit-learn.org/stable/data_transforms.html本篇主要讲数据预处理,包括四部分:数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自定义特征。哇哈哈,还是关注预处理比较靠谱。。。。重要的不翻译:scikit-learn providesa library of transformers, whi

2015-07-16 21:07:14 4146

原创 scikit-learn:5. 加载内置公用的数据

之前写过一篇如何加载自己的数据,参考:http://blog.csdn.net/mmc2015/article/details/46852755本篇主要写如何加载scikit-learn内置数据,参考:http://scikit-learn.org/stable/datasets/index.html#general-dataset-api重点介绍“5.7:The 20

2015-07-16 08:58:38 5391

原创 scikit-learn:通过TruncatedSVD实现LSA(隐含语义分析)

http://scikit-learn.org/stable/modules/decomposition.html#lsa第2.5.2部分:2.5.2. Truncated singular value decomposition and latent semantic analysis(截断SVD和LSA/LSA)先说明:latent semantic indexing, LSI和l

2015-07-13 21:10:39 16233 3

原创 scikit-learn:2.5.矩阵因子分解问题

http://scikit-learn.org/stable/modules/decomposition.html#lsa2.5.1:PCA标准PCA:只支持批量处理incremental PCA:支持分批处理,对于内存容不下的情况很好Approximate PCA:RandomizedPCA 通过computation to an approximated e

2015-07-13 20:55:19 2686

原创 scikit-learn:CountVectorizer提取tf都做了什么

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizerclass sklearn.feature_extraction.text.C

2015-07-13 18:58:52 26157 8

原创 scikit-learn:0.4 使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html1、使用“Pipeline”统一vectorizer => transformer => classifierfrom sklearn.pipeline import Pipelinetext_clf = Pipe

2015-07-13 08:37:36 3038

原创 scikit-learn:训练分类器、预测新数据、评价分类器

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html构建分类器,以NB为例:from sklearn.naive_bayes import MultinomialNBclf = MultinomialNB().fit(X_tfidf, rawData.target)要

2015-07-13 08:14:59 9289

原创 scikit-learn:从文本文件中提取特征(tf、idf)

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html昨晚写了两篇文章,明明保存了,今早却没了,只好简单的重复一下。。。1、tf:首先要解决high-dimensional sparse datasets的问题,scipy.sparse matrices 就是这样的

2015-07-13 07:48:40 4147

翻译 scikit-learn:构建文本分类的“pipeline”简化分类过程、网格搜索调参

前两篇分别将“加载数据”和“提取tf、tf-idf,进而构建分类器”,其实这个过程,vectorizer => transformer => classifier,早已被“scikit-learn provides a Pipeline class”一下就可以搞定:本篇翻译:http://scikit-learn.org/stable/tutorial/text_analytics/w

2015-07-12 21:21:15 3173 6

翻译 scikit-learn:0.3. 从文本文件中提取特征(tf、tf-idf)、训练一个分类器

上一篇讲了如何加载数据。本篇参考:http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html主要讲解如下部分:Extracting features from text filesTraining a classifier跑模型之前,需要将文本文件的

2015-07-12 20:52:56 4649 2

翻译 scikit-learn:加载自己的原始数据

这里不讨论加载常用的公用数据集,而是讨论加载自己的原始数据(即,实际中遇到的数据)http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.html#sklearn.datasets.load_filessklearn.datasets.load_files(

2015-07-12 20:28:21 18593 6

原创 scikit-learn:0.2. 加载自己的原始数据

这里不讨论加载常用的公用数据集,而是讨论加载自己的原始数据(即,实际中遇到的数据)http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.html#sklearn.datasets.load_filessklearn.datasets.load_files(

2015-07-12 19:57:53 5356

翻译 scikit-learn:0.1. 数据集格式和预测器

http://scikit-learn.org/stable/tutorial/statistical_inference/settings.html1、数据集:数据集都是2维的,第一维度是“样本维”,第二维度是“特征维”。>>> from sklearn import datasets>>> iris = datasets.load_iris()>>> data =

2015-07-12 16:38:30 3335

原创 文本建模常用的预处理方法——特征选择方法(CHI和IG)

本篇关于TF-IDF/CHI/IG,文本建模系列会不断更新。。。。

2015-07-06 10:45:59 7103 2

挖掘DBLP作者合作关系,FP-Growth算法实践

挖掘DBLP作者合作关系,FP-Growth算法实践 包括三个代码,一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有,很好用,已测试。

2016-11-07

dblp测试数据集

dblp测试数据集, 包括十六个会议的【部分内容】, 使用SDM, ICDM, ECML-­PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议,至少从2000年至今的所有数据。 应用代码参考:http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26

entity linking源码

使用lucene、lingpipe做实体连接(Entity Linking)。 数据来自dbpidia。 原始博客参考: http://blog.csdn.net/mmc2015/article/category/5795687 绝对值得参考。

2016-01-17

sql server 2008安装教程

sql server 2008安装教程,绝对详细。 每一步一个图。 不会的请留言,

2015-09-12

机器学习数据集,20news-bydate.rar

主要是解决这里的问题:http://blog.csdn.net/mmc2015/article/details/47971253#reply。数据集下载不下来,还是用现成的吧。

2015-09-06

20news-bydate.tar.gz

机器学习;数据集;20news; 机器学习数据集,主要是为不能用程序正常下载的同学准备。

2015-09-06

java读xml文件jar包

java读xml文件jar包,关于如何读写XML,参考:http://blog.csdn.net/mmc2015/article/details/47860133

2015-08-22

javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar

javaweb连接数据库包 mysql-connector-java-5.1.27-bin.jar

2015-08-15

java操作excel包 jxl.jar

java操作excel包 jxl.jar

2015-08-15

java发送邮件jar包 activation.jar

java发送邮件jar包 activation.jar

2015-08-15

java发送邮件jar包 mail.jar

mail.jar java 发送邮件的jar包

2015-08-15

mysql-connector-java-5.1.27-bin.jar

mysql-connector-java

2015-08-15

中文《机器学习实战》(注解版).pdf

中文版的《机器学习实战》。 和网上资源不同的是,加入了自己的注解,是初学者学习起来有重点,易理解。

2015-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除