2015年07月_mmc2015

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 scikit-learn：在实际项目中用到过的知识点（总结）

零、所有项目通用的：http://blog.csdn.net/mmc2015/article/details/46851245（数据集格式和预测器）http://blog.csdn.net/mmc2015/article/details/46852755（加载自己的原始数据）（适合文本分类问题的整个语料库加载）http://blog.csdn.net/mmc2

2015-07-27 08:34:35 7104 4

原创 scikit-learn：External Resources, Videos and Talks

参考：http://scikit-learn.org/stable/presentations.htmlscikit-learn的User Guide基本看完了（除了具体estimator部分），这里再摘录scikit-learn官方网站提供的额外资源，供之后学习。关于supervised learning和unsupervised learning中涉及到的estimator，用

2015-07-31 09:17:58 1114

原创 scikit-learn：3.5. Validation curves: plotting scores to evaluate models

参考：http://scikit-learn.org/stable/modules/learning_curve.htmlestimator's generalization error can be decomposed in terms ofbias, variance and noise. The bias of an estimator is its avera

2015-07-30 09:23:56 1901

原创 scikit-learn：3.4. Model persistence

参考：http://scikit-learn.org/stable/modules/model_persistence.html训练了模型之后，我们希望可以保存下来，遇到新样本时直接使用已经训练好的保存了的模型，而不用重新再训练模型。本节介绍pickle在保存模型方面的应用。（After training a scikit-learn model, it is desirable

2015-07-30 08:59:03 2042

原创 scikit-learn：3.3. Model evaluation: quantifying the quality of predictions

参考：http://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter三种方法评估模型的预测质量：Estimator score method: Estimators都有 score method作为默认的评估标准，不属于本节内容，具体参考不同estimators的文档。Scorin

2015-07-29 08:57:49 3080 2

原创 scikit-learn：3.2. Grid Search: Searching for estimator parameters

参考：http://scikit-learn.org/stable/modules/grid_search.htmlGridSearchCV通过（蛮力）搜索参数空间（参数的所有可能组合），寻找最好的 Cross-validation: evaluating estimator performance score对应的超参数（翻译文章参考：http://blog.csdn.net/m

2015-07-28 09:23:08 2525

原创 scikit-learn：3.1. Cross-validation: evaluating estimator performance

参考：http://scikit-learn.org/stable/modules/cross_validation.htmloverfitting很常见，所以提出使用test set来验证模型的performance。给个直观的例子：>>> import numpy as np>>> from sklearn import cross_validation>>> from s

2015-07-28 09:12:08 2305

原创 scikit-learn：3. Model selection and evaluation

参考：http://scikit-learn.org/stable/model_selection.html有待翻译，敬请期待：3.1. Cross-validation: evaluating estimator performance3.1.1. Computing cross-validated metrics3.1.1.1. Obtain

2015-07-27 21:07:24 1832

原创 scikit-learn：7. Computational Performance（计算效能<延迟和吞吐量>）

参考：http://scikit-learn.org/stable/modules/computational_performance.html对于有些应用，estimators的计算效能（主要指预测新样本时的延迟和吞吐量）非常关键，我们也考虑训练的效能，但由于训练可以offline，所以我们更关注预测时的效能问题。预测延迟（Prediction latency）：预测一个新样本花

2015-07-27 20:58:12 1555

原创 scikit-learn：6. Strategies to scale computationally: bigger data

参考：http://scikit-learn.org/stable/modules/scaling_strategies.html对于examples、features（或者两者）数量很大的情况，挑战传统的方法要解决两个问题：内存和效率。办法是Out-of-core (or “external memory”) learning。有三种方法可以实现out-of-core，分别是：

2015-07-27 09:12:34 1574

原创 scikit-learn：4.8. Transforming the prediction target (y)

参考：http://scikit-learn.org/stable/modules/preprocessing_targets.html没什么好翻译的，直接给例子。1、Label binarizationLabelBinarizer is a utility class to help create a label indicator matrix from

2015-07-26 17:52:44 1460

原创 scikit-learn：4.7. Pairwise metrics, Affinities and Kernels

参考：http://scikit-learn.org/stable/modules/metrics.htmlThe sklearn.metrics.pairwise submodule implements utilities to evaluate pairwise distances（样本对的距离） or affinity of sets of samples（样本集的相似度）

2015-07-26 16:35:39 1998

原创 scikit-learn：4.6. Kernel Approximation

参考：http://scikit-learn.org/stable/modules/kernel_approximation.html之所以使用approximate explicit feature maps compared to the kernel trick, 是因为这样便于online learning，且能够适用于大数据集。但是还是建议，如果可能，approximat

2015-07-26 15:36:55 3310

原创 scikit-learn：4.5. Random Projection

参考：http://scikit-learn.org/stable/modules/random_projection.htmlThe sklearn.random_projection module 通过trading accuracy（可控的范围）来降维数据，提高效率。实现了两类unstructured random matrix：: Gaussian random mat

2015-07-26 12:47:59 3654

原创 scikit-learn：4.4. Unsupervised dimensionality reduction（降维）

参考：http://scikit-learn.org/stable/modules/unsupervised_reduction.html对于高维features，常常需要在supervised之前unsupervised dimensionality reduction。下面三节的翻译会在之后附上。4.4.1. PCA: principal compo

2015-07-26 11:14:55 1976

原创 Should I normalize/standardize/rescale the data

参考：http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html早上写了半篇博客，确实是半篇，提到了normalize/standardize/rescale feature，那么到底该不该normalize/standardize/rescale呢？？？简单总结一下这篇文章的观点（还是不翻译了吧，看原文更容易

2015-07-23 20:40:30 1747

原创 scikit-learn：4.3. Preprocessing data（standardi/normali/binari..zation、encoding、missing value）

参考：http://scikit-learn.org/stable/modules/preprocessing.html主要讲述The sklearn.preprocessing package的utility function and transformer classes，包括standardization、normalization、binarization、encoding

2015-07-23 09:10:21 2492 3

原创 scikit-learn：4.2.3. Text feature extraction

http://scikit-learn.org/stable/modules/feature_extraction.html4.2节内容太多，因此将文本特征提取单独作为一块。1、the bag of words representation将raw data表示成长度固定的数字特征向量，scikit-learn提供了三个方式：tokenizing：给每一个token（字、词

2015-07-22 07:57:15 4173

原创 scikit-learn：4.2. Feature extraction（特征提取，不是特征选择）

http://scikit-learn.org/stable/modules/feature_extraction.html带病在网吧里。。。。。。写，求支持。。。1、首先澄清两个概念：特征提取和特征选择（ Feature extraction is very different from Feature selection）。the former consis

2015-07-21 21:10:23 13066 3

原创 scikit-learn：4.1. Pipeline and FeatureUnion: combining estimators（特征与预测器结合；特征与特征结合）

http://scikit-learn.org/stable/modules/pipeline.html 1、pipeline和featureUnion是干什么的：pipeline之前已经介绍过了，结合transformer和estimator。featureUinon听名字就知道，将多个transformer的结果vector拼接成大的vector。两者的区别：前者相当

2015-07-21 20:29:32 3054 2

原创《textanalytics》课程简单总结（4）：课程总结

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列，讲的非常不错哦。最后讲了文本分类，和plsa的几种变形，包括：opinion mining和sentiment analysis：Ordinal Logistic Regressionopinion mining和sentiment analysis：L

2015-07-19 09:22:01 1487

原创《textanalytics》课程简单总结（3）：text clustering

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列，讲的非常不错哦。1、text clustering的总体思想：类似于topic mining，但要求每个text只有一个主题构成！To generate a document, firstchoose a theta_i according to

2015-07-19 08:57:25 1631

原创《textanalytics》课程简单总结（2）：topic mining

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列，讲的非常不错哦。 1、“term as topic”有很多问题： 2、Improved Idea: Topic = Word Distribution： 3、定义问题（Probabilistic Topic Mining and Anal

2015-07-19 08:37:46 2080

原创《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic（续）

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列，讲的非常不错哦。3、挖掘Syntagmatic（组合）关系：有时间再总结。。

2015-07-18 11:47:13 2494

原创《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列，讲的非常不错哦。1、两种关系：Paradigmatic vs. Syntagmatic（聚合和组合）• Paradigmatic: A & B have paradigmatic relation if they canbe substituted f

2015-07-18 10:37:57 7863

原创读写文件：每次读入大文件中的一行、读写.CSV文件

读文件：传统的读法，全部读出，按行处理：fp=open("./ps.txt", "r");alllines=fp.readlines();fp.close();for eachline in alllines: print eachline 推荐读取方法，使用文件迭代器 , 每次只读取和显示一行，读取大文件时应该这样：fp=open("./ps.txt",

2015-07-17 21:04:38 5135

原创 scikit-learn：4. 数据集预处理（clean数据、reduce降维、expand增维、generate特征提取）

本文参考：http://scikit-learn.org/stable/data_transforms.html本篇主要讲数据预处理，包括四部分：数据清洗、数据降维（PCA类）、数据增维（Kernel类）、提取自定义特征。哇哈哈，还是关注预处理比较靠谱。。。。重要的不翻译：scikit-learn providesa library of transformers, whi

2015-07-16 21:07:14 4146

原创 scikit-learn：5. 加载内置公用的数据

之前写过一篇如何加载自己的数据，参考：http://blog.csdn.net/mmc2015/article/details/46852755本篇主要写如何加载scikit-learn内置数据，参考：http://scikit-learn.org/stable/datasets/index.html#general-dataset-api重点介绍“5.7：The 20

2015-07-16 08:58:38 5391

原创 scikit-learn：通过TruncatedSVD实现LSA（隐含语义分析）

http://scikit-learn.org/stable/modules/decomposition.html#lsa第2.5.2部分：2.5.2. Truncated singular value decomposition and latent semantic analysis（截断SVD和LSA/LSA）先说明：latent semantic indexing, LSI和l

2015-07-13 21:10:39 16233 3

原创 scikit-learn：2.5.矩阵因子分解问题

http://scikit-learn.org/stable/modules/decomposition.html#lsa2.5.1：PCA标准PCA：只支持批量处理incremental PCA：支持分批处理，对于内存容不下的情况很好Approximate PCA：RandomizedPCA 通过computation to an approximated e

2015-07-13 20:55:19 2686

原创 scikit-learn：CountVectorizer提取tf都做了什么

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizerclass sklearn.feature_extraction.text.C

2015-07-13 18:58:52 26157 8

原创 scikit-learn：0.4 使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html1、使用“Pipeline”统一vectorizer => transformer => classifierfrom sklearn.pipeline import Pipelinetext_clf = Pipe

2015-07-13 08:37:36 3038

原创 scikit-learn：训练分类器、预测新数据、评价分类器

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html构建分类器，以NB为例：from sklearn.naive_bayes import MultinomialNBclf = MultinomialNB().fit(X_tfidf, rawData.target)要

2015-07-13 08:14:59 9289

原创 scikit-learn：从文本文件中提取特征（tf、idf）

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html昨晚写了两篇文章，明明保存了，今早却没了，只好简单的重复一下。。。1、tf：首先要解决high-dimensional sparse datasets的问题，scipy.sparse matrices 就是这样的

2015-07-13 07:48:40 4147

翻译 scikit-learn：构建文本分类的“pipeline”简化分类过程、网格搜索调参

前两篇分别将“加载数据”和“提取tf、tf-idf，进而构建分类器”，其实这个过程，vectorizer => transformer => classifier，早已被“scikit-learn provides a Pipeline class”一下就可以搞定：本篇翻译：http://scikit-learn.org/stable/tutorial/text_analytics/w

2015-07-12 21:21:15 3173 6

翻译 scikit-learn：0.3. 从文本文件中提取特征（tf、tf-idf）、训练一个分类器

上一篇讲了如何加载数据。本篇参考：http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html主要讲解如下部分：Extracting features from text filesTraining a classifier跑模型之前，需要将文本文件的

2015-07-12 20:52:56 4649 2

翻译 scikit-learn：加载自己的原始数据

这里不讨论加载常用的公用数据集，而是讨论加载自己的原始数据（即，实际中遇到的数据）http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.html#sklearn.datasets.load_filessklearn.datasets.load_files(

2015-07-12 20:28:21 18593 6

原创 scikit-learn：0.2. 加载自己的原始数据

2015-07-12 19:57:53 5356

翻译 scikit-learn：0.1. 数据集格式和预测器

http://scikit-learn.org/stable/tutorial/statistical_inference/settings.html1、数据集：数据集都是2维的，第一维度是“样本维”，第二维度是“特征维”。>>> from sklearn import datasets>>> iris = datasets.load_iris()>>> data =

2015-07-12 16:38:30 3335

原创文本建模常用的预处理方法——特征选择方法（CHI和IG）

本篇关于TF-IDF/CHI/IG，文本建模系列会不断更新。。。。

2015-07-06 10:45:59 7103 2

挖掘DBLP作者合作关系，FP-Growth算法实践

挖掘DBLP作者合作关系，FP-Growth算法实践包括三个代码，一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有，很好用，已测试。

2016-11-07

dblp测试数据集，包括十六个会议的【部分内容】，使用SDM, ICDM, ECML-PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议，至少从2000年至今的所有数据。应用代码参考：http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26