Python机器学习
mico_cmm
To be or not to be,that's a question!
展开
-
Python读取txt文件时‘unicodeescape‘ codec can‘t decode bytes in position 错误
需要使用原始字符串:>>> sys.path.append(r'd:\pyusb-1.0.0a2\usb')或是避开反斜杠“\”,使用“\\”:>>> sys.path.append('d:\\pyusb-1.0.0a2\\usb')或使用正斜杠"/":>>> sys.path.append('d:/pyusb-1.0.0a2/usb')否则,Python将尝试将\usb解释为Unicode转义序列(如\uBEEF),原创 2021-04-23 09:39:49 · 300 阅读 · 0 评论 -
【持续更新】基于Python的机器学习——数据预处理
数据预处理模块python中的sklearn中模块中:模块preprocessing:几乎包含数据预处理的所有内容模块Impute:填补缺失值专用模块feature_selection:包含特征选择的各种方法的实践模块decomposition:包含降维算法 下面来看一下针对具体模块在数据预处理中的使用:数据无量纲化场景:将不同规格的数据转换到同一个规格,将不同分布...原创 2019-02-26 20:39:28 · 594 阅读 · 0 评论 -
数据挖掘5大流程
1.获取数据在公司的话数据挖掘/分析师一般是从同事那里获取数据。2.数据预处理获取到的数据一般是杂乱无的,并不符合我们模型的需要。需要对其处理:数据类型统一去重去除噪声数据无量纲化数据归一化数据标准化3.特征工程一般或得到的数据有很多特征,一些特征之间又存在关联,或者一些特征对于我们模型的建立没有丝毫的意义,这时候我们就需要挑选我们所需要的特征。将原始数...原创 2019-02-26 16:33:02 · 1552 阅读 · 0 评论 -
【持续更新】Python机器学习——K-Means聚类
K-Means属于聚类算法的一种。聚类又属于无监督学习的一种,无监督的算法在训练的时候只需要特征矩阵X,不需要标签。聚类的目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务 需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中,如果我们手头有大量 的当前和潜在客户的信息,我们可以使用聚类将客户划分为若干组,以便进一步分析和开展营销活动。可以看...原创 2019-03-02 14:07:42 · 584 阅读 · 0 评论 -
八爪鱼网络爬虫工具——学习笔记整理
八爪鱼是一款网页爬虫工具,可以不用编写代码快速实现网页数据的爬取。关于其基础操作,可以在其官网的使用教程http://www.bazhuayu.com/tutorialIndex 进行查看。其中主要针对其翻页和带有验证码的登录以及xpath操作进行阐述。特殊翻页数字翻页在制作采集规则时,页面没有“下一页”等翻页按钮,而是一排页码,如"1","2","3","4","5"……如何...原创 2019-02-14 15:51:55 · 27328 阅读 · 1 评论 -
【持续更新】基于Python的机器学习——决策树
决策树简介:决策树(DT)是用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。决策树的一些优点是:简单易懂和解释。树木可以看到。 需要很少的数据准备。其他技术通常需要数据规范化,需要创建虚...原创 2019-02-27 16:24:12 · 357 阅读 · 0 评论 -
Python实现多元回归实战——商品销售
备注:'Advertising.csv'是一个包含200行的商品信息数据(下载地址:在我的资源页面https://download.csdn.net/download/mico_cmm/10952846)。下面使用该数据进行多元回归分析。# 多元回归分析# 加载数据import pandas as pddata=pd.read_csv('Advertising.csv')dat...原创 2019-02-11 16:17:30 · 1201 阅读 · 1 评论 -
Python实现多项式回归实战——以及与线性回归的拟合效果对比
对于给出的 数据做出散点图,可以大致看出模型是否适合做线性回归,但是,线性回归一定是拟合最好的模型吗?答案是否定的。有时候,多项式回归会得出拟合效果更好的模型,但是也需要注意过拟合的线性。下面,还是以房屋面积预测房屋价格的数据为例:读取数据,绘制散点图: 多项式回归import matplotlib.font_manager as fmimport matplotlib.pypl...原创 2019-02-10 20:21:55 · 8192 阅读 · 0 评论 -
Python实现一元线性回归实战
回归是一种有监督的学习方式,需要根据历史数据对未知数据做出预测。在此,以房屋面积预测房屋价格为例:首先,读入数据/加载数据:代码如下:import pandas as pdimport numpy as npfrom io import StringIOfrom sklearn import linear_modelimport matplotlib.pyplot ...原创 2019-02-10 19:21:38 · 3448 阅读 · 0 评论 -
机器学习——回归
初谈回归,我们不禁要回忆到数理统计中学到的回归概念,“https://baike.baidu.com/item/%E5%9B%9E%E5%BD%92/10412815?fr=aladdin”这是百度百科给出的对于回归的一些概念。在机器学习算法中,回归是所有算法中最先涉及和学习的,回归分为单变量线性回归和多变量回归,也即是之前数学中学到的一元回归和多元回归。机器学习中所涉及的回归一般是线性回归。...原创 2019-02-05 23:19:51 · 1314 阅读 · 0 评论 -
吴恩达机器学习笔记
机器学习的例子?垃圾邮件筛选人脑识别推荐系统 为什么需要机器学习?编程无法实现吗?有些问题依靠传统的编程方法很难或者无法解决。 机器学习的算法分为监督学习和无监督学习。监督学习:给算法一个数据集,其中包含了正确答案。算法的目的是根据给出的数据集给出更多的正确答案。算法有回归和分类。回归:输出是连续的,得到的结果有很多。分类:输出是离散的,得到的结果只有几种。...原创 2019-02-05 17:41:19 · 163 阅读 · 0 评论 -
爆竹声中一岁除——给同样初走在机器学习道路上的你
初次接触机器学习,如果没有指导者,一人上路的话,难免会陷入迷途,也会走很多的岔路,浪费掉很多的时间。如果你想要从事大数据-数据挖掘,机器学习方面的工作,或者只是一个这方面的爱好者,如果是第一次接触的话,不妨试试以下的学习计划吧:1.了解大数据、数据挖掘、机器学习、人工智能的区别和联系;2.学习Python基础和数据分析库;3.学习机器学习算法:回归,分类,聚类。推荐视频:吴恩达机器...原创 2019-02-05 17:31:47 · 188 阅读 · 0 评论 -
sklearn决策树可视化过程中graphviz的安装
在此需要提醒大家的是:在win下,graphviz的安装不仅仅是在cmd中pip install graphviz然后设置环境变量就好了。具体包括三个步骤:graphviz的安装和python的graphviz插件的安装以及安装python插件pydotplus。 第一步是安装graphviz。 下载地址在:http://www....原创 2018-12-05 09:26:35 · 1030 阅读 · 0 评论