2017年09月_HeatDeath

原创《机器学习实战》学习笔记（4）—— Logistic 回归

1 Logistic 回归算法描述工作原理：为了实现 Logistic 回归分类器，可以在每个特征上都乘以一个回归系数，然后把所有结果的值相加，将这个总和带入 Sigmoid 函数中，进而得到一个范围在 0-1 之间的数值。任何大于0.5的数据被分入1类别，任何小于0.5的数据被分入0类别。Logistic 回归也可以被看成是一种概率估计。2 伪代码（1）梯度上升伪代码：每个回归

2017-09-26 19:56:59 596

原创《机器学习实战》学习笔记（3）—— 朴素贝叶斯

1 朴素贝叶斯算法描述工作原理：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。2 计算概率的伪代码计算每个类别中的文档数目：对每篇训练文档：对每个类别： If 词条出现在文档中：增加该词条的计数值增加所有词条的计数值对每个类别：

2017-09-26 19:07:30 2124

原创《机器学习实战》学习笔记（2）—— 使用ID3算法构造决策树

1 决策树算法概述工作原理：得到原始数据集，然后基于最好的属性值划分数据集，由于特征值可能多余两个，因此可能存在大于两个分支的数据集划分。第一次划分后，数据将被向下传递到树分支的下一个节点，在这个节点上，我们可以再次划分数据。递归结束的条件：程序遍历完所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类。如果所有实例具有相同的分类，则得到一个叶子

2017-09-26 15:32:36 2751

原创《机器学习实战》学习笔记（1）——k-近邻算法

1 k-近邻算法概述k-近邻算法，采用测量不同特征值之间的距离方法进行分类。工作原理：存在一个样本数据集，也成为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中的每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。2 k-近邻算法伪代码对未知类别属性的数据集中的

2017-09-26 13:50:48 815

转载 python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib

解决办法1.FILE_OBJECT= open('order.log','r', encoding='UTF-8')解决办法2.FILE_OBJECT= open('order.log','rb')

2017-09-23 15:55:14 1133

转载 Python 正则表达式指南

原文地址： Python正则表达式指南下图展示了使用正则表达式进行匹配的流程：正则表达式的大致匹配过程是：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界，这个过程会稍微有一些不同，但也是很好理解的，看下图中的示例以及自己多使用几次就能明白。下图列出了Python支持的正则表

2017-09-23 15:40:13 881 1

原创 Python基础 —— 获取当前文件所在目录，遍历当前目录，获取指定后缀的文件

In [54]:ximport os, sys×…In [55]: # 获取当前目录os.getcwd()×Out[55]:'C:\\Users\\rHotD\\Documents\\GitHub\\Machine_Learning_In_Action\\Machine Learning In Action With Pandas and Scikit-learn\\chapter-04'…In [

2017-09-23 14:53:22 5429 1

转载 windows 下 Graphviz 安装及入门教程

下载安装、配置环境变量intallwindows版本下载地址：http://www.graphviz.org/Download_windows.php双击msi文件，然后一直next（记住安装路径，后面配置环境变量会用到路径信息），安装完成之后，会在windows开始菜单创建快捷信息，默认快捷方式不放在桌面。配置环境变量将graphviz安装目录下的bin文件夹添加到Path环境变量中：

2017-09-21 15:14:17 5844

原创数据预处理（2）—— One-hot coding 独热编码#分别使用 pandans.dummies 和 sklearn.feature_extraction.DictVectorizer 进行处理

离散 feature 的 encoding 分为两种情况：1、离散 feature 的取值之间没有大小的意义，比如color：[red,blue],那么就使用 one-hot encoding2、离散 feature 的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}In [90]: import numpy as npimport pand

2017-09-21 13:57:38 2278

原创数据预处理（1）——标准化（Standardization）与归一化（Normalization）

In [19]: import numpy as npimport pandas as pdfrom pandas import Series, DataFramenp.set_printoptions(precision=4)×…In [20]:xfrom sklearn import preprocessing×…In [21]: dataSet_df = pd.read_table('dati

2017-09-21 10:56:20 8134

转载 Scikit-Learn 学习 —— kNN使用

sklearn内置数据集数据是机器学习的关键，在机器学习工作中我们需要花费大量的时间来采集和整理数据，合理且科学的数据是得到良好机器学习效果的关键。一般而言，一个分类问题的机器学习过程需要用到四块数据内容，分别是：训练数据，一般用train来表示训练数据的分类属性，一般用target来表示测试数据，一般用test来表示测试数据的真实分类属性，用于评估分类器性能，一般用expected来表示

2017-09-20 16:13:39 1533

原创 git 常用命令

把所有文件添加到仓库 git add .把文件提交到仓库，-m后面的内容是本次提交的说明 git commit -m ‘msg’时刻掌握仓库的当前状态 git status查看difference git diff从现在起，只要本地作了提交，就可以通过： git push origin master把本地master分支的最新修改推送到Github

2017-09-19 23:46:15 501

原创 Jupyter Notebook 快捷键

Jupyter Notebook 快捷键使用指南从命令模式进入编辑模式需按 Enter 键，从编辑模式切换到命令模式需按Esc 键。 Jupyter Notebook 是一个交互式笔记本程序, 其有丰富的快捷键来便捷的完成工作。Notebook 有两种键盘输入模式。即命令模式和编辑模式，这与 Vim 有些类似。在编辑模式下，可以往单元中键入代码或文本，此时单元格被绿色的框线包围，且命

2017-09-19 15:49:25 32646

原创 Win10 快捷键

【Win+D】所有窗口最小化，显示桌面，再按一下恢复之前样子。【Win+I】调出设置面板。【Win+X】简易版开始菜单，可以用来打开一些旧版的系统模块（如控制面板等）。【Win+E】启动文件资源管理器。【Win+G】启动Win10内置屏幕录像功能。【Win+↑/↓/←/→】将当前窗口按比例固定到屏幕的四个边角，如左上、右上、左下、右下。【F11】将当前窗口转为全屏模式（仅限传统程序）。

2017-09-19 15:25:02 832 1

原创 Chrome 常用快捷键

Data processing using arraysimport numpy as npfrom matplotlib.pyplot import imshow, titleimport matplotlib.pyplot as pltnp.set_printoptions(precision=4, suppress=True)# 起始点，终止点，步长points = np.arange(

2017-09-19 15:22:33 878 1

原创利用Python进行数据分析（3）—— Numpy Basic（3）

Data processing using arraysimport numpy as npfrom matplotlib.pyplot import imshow, titleimport matplotlib.pyplot as pltnp.set_printoptions(precision=4, suppress=True)# 起始点，终止点，步长points = np.arange(

2017-09-13 18:16:24 824

原创机器学习系统设计（1）——第一个机器学习应用

import scipy as spimport matplotlib.pyplot as plt'''precision 浮点数输出精度位数（默认值8位）suppress 是否禁止使用科学记数法（默认为False）打印小浮点值'''sp.set_printoptions(precision=4, suppress=True)# 以 \t 为分隔符data = sp.genfrom

2017-09-02 18:03:50 4859

HeatDeath的博客