2017年01月_panghaomingme

原创 Python中if name == "main": 的作用

在很多python脚本中在最后的部分会执行一个判断语句if __name__ == "__main__:"，之后还可能会有一些执行语句。那添加这个判断的目的何在？在python编译器读取源文件的时候会执行它找到的所有代码，而在执行之前会根据当前运行的模块是否为主程序而定义变量__name__的值为__main__还是模块名。因此，该判断语句为真的时候，说明当前运行的脚本为主程序，而非主

2017-01-17 15:14:27 230

原创机器学习课程——正态分布

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution）若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ，σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。公式：接下来画一个标准正态分布

2017-01-17 14:37:57 2167

原创机器学习——概率论基础

公式一：设A，B 是两个事件，且A不是不可能事件，则称为在事件A发生的条件下，事件B发生的条件概率。一般地，，且它满足以下三条件：（1）非负性；（2）规范性；（3）可列可加性。公式二：设事件组是样本空间Ω 的一个划分，且P（Bi）>0（i=1，2，…n）则对任一事件B，有公式三

2017-01-16 10:48:04 438

原创 sklearn——朴素贝叶斯文本分类3

在分类前对文本进行预处理，去除停用词代码：# -*- coding: utf-8 -*-"""Created on Sat Jan 14 21:03:17 2017@author: 54376"""# 从sklearn.datasets里导入20类新闻文本数据抓取器。from sklearn.datasets import fetch_20newsgroups# 从互联网上即

2017-01-14 21:11:36 2027

原创 sklearn——朴素贝叶斯分文本分类2

使用sklearn中的tf-idf向量选择器对向量进行选择，是一个特征选择的过程代码：# 从sklearn.feature_extraction.text里分别导入TfidfVectorizer。from sklearn.feature_extraction.text import TfidfVectorizer# 采用默认的配置对TfidfVectorizer进行初始化（默认配置不去除英

2017-01-14 21:02:53 1794

原创浅谈特征选择和特征抽取

机器学习中我们经常会遇到维数过高的问题，会形成“维灾难”，所以经常会有降维的处理。常用的降维分为两类：特征选择和特征抽取那么这两者之间有什么区别呢？特征抽取（Feature Extraction）:Creatting a subset of new features by combinations of the exsiting features.也就是说，特

2017-01-14 18:56:03 883

原创 sklearn——朴素贝叶斯文本分类

在不去除停用词的情况下用朴素贝进行文本分类# 从sklearn.datasets里导入20类新闻文本数据抓取器。from sklearn.datasets import fetch_20newsgroups# 从互联网上即时下载新闻样本,subset='all'参数代表下载全部近2万条文本存储在变量news中。news = fetch_20newsgroups(subset='all')

2017-01-14 18:23:10 4698

原创 Anaconda更新库

1. 如何查看已安装的库打开 Anaconda Command Prompt ,在命令提示符窗口中输入以下命令：pip list# 或者conda list其中，pip list 只能查看库，而 conda list 则可以查看库以及库的版本2. 如何安装或更新库以安装更新 scipy 为例pip install scipypip install s

2017-01-14 13:50:00 2702

原创机器学习笔记——梯度下降:

Andrew Ng教授在机器学习课程里介绍了两种梯度下降的方法：(1)批梯度下降 (2)随机梯度下降（增量梯度下降）(1)批梯度下降算法

2017-01-10 13:36:10 282

原创机器学习笔记——最小二乘法

本笔记是学习吴恩达的机器学习视频中所讲的知识，对应的代码实现，理论部分不做太多的记录，因为视频中讲的很清楚，所以只记录代码本节介绍机器学习中常用的线性回归模型，鉴于是第一节，为循序渐进的学习，本节中将分析一元线性回归。假设这里存在m组数据(x,y)，其具体值如下（此处m=6）：yx1.371.152.41.9

2017-01-09 20:32:46 1243 1

转载机器学习中正则化项L1和L2的直观理解

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm和ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。下图是P

2017-01-04 18:48:32 2877

panghaomingme的博客