数据挖掘
大大kc
今日事,今日毕
展开
-
Virtualenv和Virtualenvwrapper安装和使用(Mac)
virtualenv是一个python虚拟环境,能够和系统环境相隔离,保持环境的纯净。virtualenvwrapper可以方便的管理虚拟环境。virtualenv的安装sudo pip install virtualenvvirtualenv使用virtualenv virenv1即可创建虚拟环境。virtualenvwrapper的安装sudo easy_install virtualenvwr原创 2017-03-18 12:19:42 · 2120 阅读 · 0 评论 -
数据挖掘比赛入门_以去年阿里天猫推荐比赛为例
数据挖掘比赛入门_以去年阿里天猫推荐比赛为例·写在前面 整理资料的时候又把这篇文章翻到了,这篇文章对我启发还是很大的,所以就转载在这里做个存档吧,以下内容均为转载,非博主原创。之前写过关于《天猫推荐算法大赛》的总结,但那并不适合给纯新手看,这里再针对性地进行整理,以方便新手理解。仍然以该赛题为例,讲解一个数据挖掘比赛的具体做法,层层深入。本次讲解假定读者对机器学习和数据挖掘有一定转载 2017-05-05 10:37:44 · 1433 阅读 · 1 评论 -
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化。123456789101112131转载 2017-05-05 19:36:54 · 512 阅读 · 0 评论 -
词性标注Pos Tagging
转自:http://blog.csdn.net/u014568921/article/details/51791495什么是词性标注,Part-of-speech tagging比如下面一段标注过词性的文字文字,用空格分开后,/前面的是英文单词,后面表示它的词性。[plain] view plain copy print?Confidence/NN in/IN the/DT p转载 2018-01-22 17:16:12 · 1012 阅读 · 0 评论 -
mac中运行.ipynb文件
pip install jupyterpython -m IPython notebook原创 2018-01-16 21:39:53 · 4417 阅读 · 0 评论 -
Scikit Learn CountVectorizer 入门实例
转自:http://blog.csdn.net/guotong1988/article/details/51567562from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish","dog cat cat","fish bird", 'bird']cv = CountVectorizer转载 2018-02-02 16:46:47 · 537 阅读 · 0 评论 -
python中常用的九种预处理方法
转自:http://www.jb51.net/article/92408.htm 本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-sc转载 2018-02-02 17:40:19 · 934 阅读 · 0 评论 -
Scikit-learn使用总结
转载自:https://www.jianshu.com/p/516f009c0875 在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个转载 2018-02-02 17:50:23 · 399 阅读 · 0 评论