数据分析
文章平均质量分 70
最小森林
It's now or never .
展开
-
第1周-Python基础
这个博客系列是coursera上的公开课《用Python玩转数据》的学习笔记。希望可以学到有用的数据分析知识。Python基础Python基础1走进PythonPython简介Hello WorldPython基础语法Python数据类型Python基本运算python的模块函数2 more about Python条件ifrange循环loopsbreakcontinue原创 2017-05-30 19:02:12 · 920 阅读 · 0 评论 -
理解假设检验与P值
假设检验:第一类错误假设检验例题:假设检验:第1步:确定你要研究的问题是什么。零假设(Ho): 备选假设(H1):第2步:证据是什么?(选取合适的统计量)在零假设成立的前提下,我们从总体中随机抽样得到一个样本。并计算这个样本发生的可能性有多大(P值)。第3步:判断标准是什么?(显著性水平)假设检验常用的判断标准是5%,在假...原创 2018-08-11 23:26:30 · 9493 阅读 · 1 评论 -
python时间序列分析
本文转载自博客园大神“大熊猫淘沙”的一篇文章——python时间序列分析。 文章写的生动有趣干货满满,特此收藏转载一下。原文地址:https://www.cnblogs.com/foley/p/5582358.html1. 什么是时间序列1.1 环境配置1.2 pandas时间序列操作2时间序列分析2.1基本模型2.2平稳性检验2.3平稳性处理2.4模型识别...转载 2018-03-05 22:45:49 · 13915 阅读 · 1 评论 -
python - 如何拆分没有空格的文本为单词列表?将组合单词拆分开
python - 如何拆分没有空格的文本为单词列表?将组合单词拆分开很多时候,我们需要把一长串单词字符拆分开来,比如:输入:“tableapplechairtablecupboard …”很多字。我们希望有一个有效的算法来分割这样的文本到单词列表,并得到:输出:[“table”,“apple”,“chair”,“table”,“cup”,“board”]或者将一个很长的函数名拆分...转载 2018-02-28 16:35:17 · 6766 阅读 · 6 评论 -
python使用scikit-learn计算TF-IDF
本文转载自:Eastmount大神的文章: http://www.voidcn.com/article/p-bbabkmsv-pt.html1 Scikit-learn下载安装1.1 简介1.2 安装软件2 TF-IDF基础知识2.1 TF-IDF概念2.2 举例说明计算3 Scikit-Learn中计算TF-IDF3.1 CountVectorizer...转载 2018-03-14 21:33:58 · 18611 阅读 · 3 评论 -
自然语言处理 怎么获得数据集 中文语料集?
深度学习 自然语言处理 怎么获得数据集 中文语料集?深度学习 自然语言处理 怎么获得数据集 中文语料集爬虫数据平台1 数据堂2 搜狗实验室3 自然语言处理与信息检索共享平台4 聚数力人工收集的现如今构件人工智能、机器学习甚至深度学习系统,变得越来越容易。但是让这些模型或者系统真正有价值的却是“数据”。那么如果刚刚上手机器学习或者深度学习,怎么寻找合适的数据集呢?下面就介绍一些获取数据原创 2017-09-19 22:15:17 · 15713 阅读 · 1 评论 -
标签二值化LabelBinarizer
对于标称型数据来说,preprocessing.LabelBinarizer是一个很好用的工具。比如可以把yes和no转化为0和1,或是把incident和normal转化为0和1。当然,对于两类以上的标签也是适用的。这里举一个简单的例子,说明将标签二值化以及其逆过程。# -*- coding: UTF-8 -*-from sklearn import preprocessingfrom skl转载 2017-08-30 18:36:42 · 32741 阅读 · 0 评论 -
10 交叉验证3
交叉验证3交叉验证3介绍例子 - 藉由 validation_curve 来检视模型参数有没有过拟合Overfitting的问题介绍连续三节的交叉验证(cross validation)让我们知道在机器学习中验证是有多么的重要, 这一次的 sklearn 中我们用到了sklearn.learning_curve当中的另外一种, 叫做validation_curve,用这一种曲线我们就能更加直观原创 2017-07-02 12:02:33 · 1054 阅读 · 0 评论 -
9 交叉验证2 overfitting
交叉验证2 过拟合overfitting交叉验证2 过拟合overfitting介绍介绍sklearn.learning_curve 中的 learning curve 可以很直观的看出我们的 model 学习的进度, 对比发现有没有 overfitting 的问题. 然后我们可以对我们的 model 进行调整, 克服 overfitting 的问题.from sklearn.learning_原创 2017-07-02 12:01:49 · 619 阅读 · 0 评论 -
11 保存模型
保存模型保存模型picklejoblib总算到了最后一次的课程了,我们训练好了一个Model 以后总需要保存和再次预测, 所以保存和读取我们的sklearn model也是同样重要的一步。sklearn官方文档主要介绍两种保存Model的模块pickle与joblib。1 pickle首先简单建立与训练一个SVCModel。from sklearn import svmfrom sklear原创 2017-07-02 11:59:43 · 699 阅读 · 0 评论 -
8 交叉验证 1 Cross-validation
交叉验证 1 Cross-validation交叉验证 1 Cross-validation介绍例子1 - 如何选择正确的Model 基础验证法例子2 - 如何选择正确的Model 交叉验证法Cross Validation例子3 - 如何选择模型参数 以准确率accuracy判断例子4 - 如何选择模型参数 以平均方差Mean squared error判断介绍Sklearn 中的 C原创 2017-07-01 16:12:45 · 1267 阅读 · 0 评论 -
7 数据预处理-数据标准化
数据预处理-数据标准化数据预处理-数据标准化正规化 Normalization例子1 - 数据标准化例子2 - 数据标准化对机器学习成效的影响正规化 Normalization这个文章知识讲解了入门的数据预处理,更多的归一化方法请看: http://blog.csdn.net/u012052268/article/details/74028952 sklearn中常用数据预处理方法由于原创 2017-07-01 11:10:07 · 1471 阅读 · 0 评论 -
sklearn中常用数据预处理方法
转载自:http://2hwp.com/2016/02/03/data-preprocessing/常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征均值为0,单位方差。也叫z-score规范化(零均值规范化转载 2017-07-01 10:25:53 · 2386 阅读 · 0 评论 -
5 sklearn的数据集-datasets
sklearn的数据集-datasetssklearn的数据集-datasetssklearn 强大数据库文档介绍1 经典数据2 构造数据例子1房价例子2创建虚拟数据并可视化1 sklearn 强大数据库data sets,有很多有用的,可以用来学习算法模型的数据库。 eg: boston 房价, 糖尿病, 数字, Iris 花。主要有两种: - 封装好的经典数据。eg: bost原创 2017-06-30 10:25:43 · 19186 阅读 · 1 评论 -
1-4sklearn基础
sklearn基础sklearn基础sklearn 简介安装选择合适的机器学习方法模型入门例子-分类-KNN算法-给花朵分类笔记是观看莫烦的机器学习视频《莫烦Scikit-learn》的读书笔记,初学者强烈推荐他的视频。1 sklearn 简介Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一.Sklearn 包含了很多种机器学习的方式:原创 2017-06-30 08:52:09 · 762 阅读 · 0 评论 -
第3周-强大的数据结构(字典集合+scipy的数据结构)
字典与集合定义scipy库ndarry1创建多维数组2类型转换3 ndarray 的简单使用pandas的series变长字典1生成series2访问Series中的元素和索引3简单运算4 Series的自动对齐5命名pandas的dataframe 1 DataFrame 对象的构建2 DataFrame 内容访问3 DataFrame 对象的修改字典与集合定义:原创 2017-06-05 11:35:49 · 1490 阅读 · 2 评论 -
第2周-数据获取与表示
数据获取本地数据获取就是从本地读取数据,包括文件的打开读写和关闭。打开和关闭文件open()函数注意:文件被打开后一定得记得关闭close()。否则可能会损害文件。所以尽量使用 with 。让python自己判断什么时候该关闭,并自己去关闭。open()后是一个对象,这个对象有read()方法与write()方法。常用打开模式:r 只能读 r+ 可读可写,不会创建不存在的文件,从顶部开始写原创 2017-06-05 11:36:52 · 694 阅读 · 0 评论 -
数据分析-划分客户等级
文章目录概念1. 划分客户真题:网易笔试:真题:网易面试:例题概念1. 划分客户互联网运营应该以用户为中心,用户才是互联网时代的真正大佬!随着用户不断积累与沉淀,当用户达到一定量级(暂无固定值)之后,给自己的用户定义分级是十分重要的工作。如果我们将企业的客户按照下单频次和客单价两个维度切分成四个象限,划分为A、B、C、D、E五个群体,企业的核心诉求之一,便是找到更多的潜在客户群体A,转化为...原创 2018-09-21 10:13:05 · 13810 阅读 · 0 评论