自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 问答 (3)
  • 收藏
  • 关注

原创 《机器学习实战》学习笔记(4)—— Logistic 回归

1 Logistic 回归算法描述 工作原理: 为了实现 Logistic 回归分类器,可以在每个特征上都乘以一个回归系数,然后把所有结果的值相加,将这个总和带入 Sigmoid 函数中,进而得到一个范围在 0-1 之间的数值。任何大于0.5的数据被分入1类别,任何小于0.5的数据被分入0类别。Logistic 回归也可以被看成是一种概率估计。2 伪代码(1)梯度上升伪代码:每个回归

2017-09-26 19:56:59 596

原创 《机器学习实战》学习笔记(3)—— 朴素贝叶斯

1 朴素贝叶斯算法描述 工作原理: 对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2 计算概率的伪代码计算每个类别中的文档数目:对每篇训练文档: 对每个类别: If 词条出现在文档中: 增加该词条的计数值 增加所有词条的计数值 对每个类别:

2017-09-26 19:07:30 2124

原创 《机器学习实战》学习笔记(2)—— 使用ID3算法构造决策树

1 决策树算法概述 工作原理: 得到原始数据集,然后基于最好的属性值划分数据集,由于特征值可能多余两个,因此可能存在大于两个分支的数据集划分。第一次划分后,数据将被向下传递到树分支的下一个节点,在这个节点上,我们可以再次划分数据。 递归结束的条件: 程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都具有相同的分类。如果所有实例具有相同的分类, 则得到一个叶子

2017-09-26 15:32:36 2751

原创 《机器学习实战》学习笔记(1)——k-近邻算法

1 k-近邻算法概述k-近邻算法,采用测量不同特征值之间的距离方法进行分类。 工作原理: 存在一个样本数据集,也成为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中的每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。2 k-近邻算法伪代码对未知类别属性的数据集中的

2017-09-26 13:50:48 815

转载 python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib

解决办法1.FILE_OBJECT= open('order.log','r', encoding='UTF-8')解决办法2.FILE_OBJECT= open('order.log','rb')

2017-09-23 15:55:14 1133

转载 Python 正则表达式指南

原文地址: Python正则表达式指南 下图展示了使用正则表达式进行匹配的流程: 正则表达式的大致匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界,这个过程会稍微有一些不同,但也是很好理解的,看下图中的示例以及自己多使用几次就能明白。 下图列出了Python支持的正则表

2017-09-23 15:40:13 881 1

原创 Python基础 —— 获取当前文件所在目录,遍历当前目录,获取指定后缀的文件

In [54]:ximport os, sys×…In [55]: # 获取当前目录os.getcwd()×Out[55]:'C:\\Users\\rHotD\\Documents\\GitHub\\Machine_Learning_In_Action\\Machine Learning In Action With Pandas and Scikit-learn\\chapter-04'…In [

2017-09-23 14:53:22 5429 1

转载 windows 下 Graphviz 安装及入门教程

下载安装、配置环境变量intallwindows版本下载地址:http://www.graphviz.org/Download_windows.php双击msi文件,然后一直next(记住安装路径,后面配置环境变量会用到路径信息),安装完成之后,会在windows开始菜单创建快捷信息,默认快捷方式不放在桌面。 配置环境变量将graphviz安装目录下的bin文件夹添加到Path环境变量中:

2017-09-21 15:14:17 5844

原创 数据预处理(2)—— One-hot coding 独热编码#分别使用 pandans.dummies 和 sklearn.feature_extraction.DictVectorizer 进行处理

离散 feature 的 encoding 分为两种情况:1、离散 feature 的取值之间没有大小的意义,比如color:[red,blue],那么就使用 one-hot encoding2、离散 feature 的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}In [90]: import numpy as npimport pand

2017-09-21 13:57:38 2278

原创 数据预处理(1)——标准化(Standardization)与归一化(Normalization)

In [19]: import numpy as npimport pandas as pdfrom pandas import Series, DataFramenp.set_printoptions(precision=4)×…In [20]:xfrom sklearn import preprocessing×…In [21]: dataSet_df = pd.read_table('dati

2017-09-21 10:56:20 8134

转载 Scikit-Learn 学习 —— kNN使用

sklearn内置数据集数据是机器学习的关键,在机器学习工作中我们需要花费大量的时间来采集和整理数据,合理且科学的数据是得到良好机器学习效果的关键。一般而言,一个分类问题的机器学习过程需要用到四块数据内容,分别是:训练数据,一般用train来表示训练数据的分类属性,一般用target来表示测试数据,一般用test来表示测试数据的真实分类属性,用于评估分类器性能,一般用expected来表示

2017-09-20 16:13:39 1533

原创 git 常用命令

把 所有 文件添加到仓库 git add .把文件提交到仓库,-m后面的内容是本次提交的说明 git commit -m ‘msg’时刻掌握仓库的当前状态 git status查看difference git diff从现在起,只要本地作了提交,就可以通过: git push origin master把本地master分支的最新修改推送到Github

2017-09-19 23:46:15 501

原创 Jupyter Notebook 快捷键

Jupyter Notebook 快捷键使用指南 从命令模式进入编辑模式需按 Enter 键,从编辑模式切换到命令模式需按Esc 键。 Jupyter Notebook 是一个交互式笔记本程序, 其有丰富的快捷键来便捷的完成工作。Notebook 有两种键盘输入模式。即命令模式和编辑模式,这与 Vim 有些类似。在编辑模式下,可以往单元中键入代码或文本,此时单元格被绿色的框线包围,且命

2017-09-19 15:49:25 32646

原创 Win10 快捷键

【Win+D】 所有窗口最小化,显示桌面,再按一下恢复之前样子。【Win+I】 调出设置面板。【Win+X】 简易版开始菜单,可以用来打开一些旧版的系统模块(如控制面板等)。【Win+E】 启动文件资源管理器。【Win+G】 启动Win10内置屏幕录像功能。【Win+↑/↓/←/→】 将当前窗口按比例固定到屏幕的四个边角,如左上、右上、左下、右下。【F11】 将当前窗口转为全屏模式(仅限传统程序)。

2017-09-19 15:25:02 832 1

原创 Chrome 常用快捷键

Data processing using arraysimport numpy as npfrom matplotlib.pyplot import imshow, titleimport matplotlib.pyplot as pltnp.set_printoptions(precision=4, suppress=True)# 起始点,终止点,步长points = np.arange(

2017-09-19 15:22:33 878 1

原创 利用Python进行数据分析(3)—— Numpy Basic(3)

Data processing using arraysimport numpy as npfrom matplotlib.pyplot import imshow, titleimport matplotlib.pyplot as pltnp.set_printoptions(precision=4, suppress=True)# 起始点,终止点,步长points = np.arange(

2017-09-13 18:16:24 824

原创 机器学习系统设计(1)——第一个机器学习应用

import scipy as spimport matplotlib.pyplot as plt'''precision 浮点数输出精度位数(默认值8位)suppress 是否 禁止 使用 科学记数法(默认为False)打印小浮点值'''sp.set_printoptions(precision=4, suppress=True)# 以 \t 为分隔符data = sp.genfrom

2017-09-02 18:03:50 4859

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除