机器学习
嘟嘟杜
这个作者很懒,什么都没留下…
展开
-
机器学习与大数据基础知识(二)
目录数据集如何对二分类问题进行评价?机器学习的步骤机器学习分类机器学习三要素如何设计机器学习系统模型选择-泛化性能体现正则化交叉验证库介绍数据集 数据集的行:样本 数据集的列:特征 特征组成的空间:特征或属性空间 组成属性空间中的点:特征或属性向量 将数据集切分成训练集和测试集,使用训练集+算法构成模型...原创 2020-03-10 21:54:12 · 631 阅读 · 0 评论 -
机器学习与大数据基础知识(一)
大数据时代究竟改变了什么? 改变的是思维 增加了数据重要性:数据资源--->数据资产(增值) 改变了方法论:基于知识的理论完美主义--->基于数据的历史经验主义 改变了数据分析:统计学(抽样)--->数据科学(大数据) 改变计算智能:复杂算法--->简单算法(MapReduce) 改变决策方面:基于目标决策---&g...原创 2020-03-09 16:08:58 · 2122 阅读 · 0 评论 -
机器学习:数学加强(三):矩阵与线性代数
矩阵线性代数式的用途:SVD分解有一个m×n的实数矩阵,我们想要把它分解成如下的形式 其中和均为单位正交阵,即有和,称为左奇异矩阵,称为右奇异矩阵 仅在主对角线上有值,我们称它为奇异值,其它元素均为0通常奇异值由大到小排列 例子:公式分解由于是逐渐变小的,那么则前几项的作用力比较大,截取前k项可能就能表示出全部的特征。k值越大、图片越清晰...原创 2020-03-06 17:17:29 · 726 阅读 · 0 评论 -
机器学习:数学加强(二)——条件概率、贝叶斯公式、常见分布、协方差、相关系数、切比雪夫不等式、大数定律
条件概率、全概率公式、贝叶斯公式常见概率密度分布两点分布二项分布泊松分布均匀分布指数分布正态分布分布总结...原创 2020-02-28 00:20:45 · 1047 阅读 · 0 评论 -
机器学习:数学加强(一)——常用数学知识点
一、 幂函数一般地,函数叫做幂函数,其中x是自变量,a是常数(我们只讨论a是有理数的情况).import matplotlib.pyplot as pltimport numpy as npimport mathplt.figure(figsize=(8,8))x = np.linspace(-10,10,500)plt.plot(x,x**3,color='g',label...原创 2020-02-24 17:48:26 · 202 阅读 · 0 评论 -
Python Matplotlib 改变坐标轴的默认位置
使用Matplotlib绘制的图表的默认坐标轴是在左下角的,这样对于一些函数的显示不是非常方便,要改变坐标轴的默认显示方式主要要使用gca()方法plt.gca()表示 Get current axis,使用这个方法我们可以获得整张图表的坐标对象,这样我们就可以对坐标进行处理了,像移动位置,设置颜色之类的,类似plt.gcf()这个是 Get current figure 即获得当...转载 2020-02-16 12:13:39 · 6803 阅读 · 0 评论 -
机器学习数据科学包(十五)——Matplotlib模块:实例
注释.annotate('this is a note', xy=(x1,y1), xytext=(x2,y2), arrowprops={'frac'=0.5,'facecolor':,headwidth':,'width':})其中xy代表箭头起始坐标,xytext代表箭头终止坐标及注释开始位置,arrowpro...原创 2020-02-13 16:36:43 · 545 阅读 · 0 评论 -
机器学习数据科学包(十四)——Matplotlib模块:颜色样式、面向对象画图、子图、网格、图例、坐标轴范围,刻度,添加坐标轴,注释,文字,Tex公式,形状,美化,极坐标
目录颜色样式面向对象画图子图网格图例设置坐标轴范围坐标轴刻度添加坐标轴颜色样式颜色八种默认颜色缩写b:blue g:green r:red c:cyan m:magenta y:yellow k:black w:white其他颜色表示方法灰色阴影 html 十六进制 RGB元组点形状(注不同点默认使用不同颜色)"."...原创 2020-02-10 23:15:10 · 922 阅读 · 0 评论 -
机器学习数据科学包(十三)——Matplotlib模块:散点图、线形图、柱状图、直方图、饼图、箱型图
散点图散点图显示两组数据的值,每个点的坐标位置由变量的值决定 由一组不连接的点完成,用于观察两种变量的相关性 例如身高-体重、温度-维度、等等绘图语法plt.scatter([1,2,3,4],[1,2,3,4])不相关正相关负相关样式选择plt.scatter(x,y,s=点面积,c=颜色,alpha=透明度,marker=形状)...原创 2020-02-10 21:47:50 · 912 阅读 · 0 评论 -
机器学习数据科学包(十二)——Pandas实例:时间事件日志
时间事件日志个人时间统计工具。要点:使用 dida365.com 来作为 GTD 工具 使用特殊格式记录事件类别和花费的时间,如: “[探索发现] 体验 iMac 开发环境 [3h]” 导出数据 分析数据读取数据分析并读取数据、数据清洗只关心己完成或己达成的事件,即status != 0的事件 只需要List Name和Title字段数据解析...原创 2020-02-09 22:13:51 · 200 阅读 · 0 评论 -
机器学习数据科学包(十一)——Pandas实例:股票与数据分析
股票数据分析具体详见https://github.com/kamidox/stock-analysis这里假设数据已经下载下来,并且保存在 yahoo-data 目录下。分析波动幅度增长曲线增长倍数最大增长倍数及最大年化复合增长率计算最低价和最高价之间的收盘价比较,以及增长的倍数和年化复全增长率,这个反应的是一个股票最好的情况下的投资收益情况。...原创 2020-02-09 22:03:34 · 823 阅读 · 0 评论 -
机器学习数据科学包(十)——Pandas高级内容:数据可视化
数据可视化Pandas 的数据可视化使用 matplotlib 为基础组件。更基础的信息可参阅 matplotlib 相关内容。本节主要介绍 Pandas 里提供的比 matplotlib 更便捷的数据可视化操作。线型图Series 和 DataFrame 都提供了一个plot的函数。可以直接画出线形图。柱状图直方图直方图是一种对值频率进...原创 2020-02-09 21:57:37 · 238 阅读 · 0 评论 -
机器学习数据科学包(九)——Pandas高级内容:时间日期
时间日期时间戳 tiimestamp:固定的时刻 -> pd.Timestamp 固定时期 period:比如 2016年3月份,再如2015年销售额 -> pd.Period 时间间隔 interval:由起始时间和结束时间来表示,固定时期是时间间隔的一个特殊时间日期在 Pandas 里的作用分析金融数据,如股票交易数据 分析服务器日志Python dateti...原创 2020-02-09 21:46:59 · 264 阅读 · 0 评论 -
机器学习数据科学包(八)——Pandas高级内容:数据IO操作
载入数据到 Pandas索引:将一个列或多个列读取出来构成 DataFrame,其中涉及是否从文件中读取索引以及列名 类型推断和数据转换:包括用户自定义的转换以及缺失值标记 日期解析 迭代:针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别 不规整数据问题:跳过一些行,或注释等等索引及列名ex1.csvex2.csv处理不...原创 2020-02-09 17:42:14 · 261 阅读 · 0 评论 -
机器学习数据科学包(七)——Pandas高级内容:分组运算、聚合统计
分组计算分组计算三步曲:拆分 -> 应用 -> 合并拆分:根据什么进行分组? 应用:每个分组进行什么样的计算? 合并:把每个分组的计算结果合并起来。对 Series 进行分组通过索引对齐关联起来对 DataFrame 进行分组每个分组的元素个数对分组进行迭代转化为字典按列分组通过字典进行分组通过函...原创 2020-02-09 17:32:40 · 332 阅读 · 0 评论 -
机器学习数据科学包(六)——Pandas基础索引:重复索引处理,层次化索引,索引交换排序,索引与列的转换
索引行索引 .index() 列索引 .columns() 索引的分类 pd.*Index? +[tab键] 重复索引的处理.index.is_unique 判断是否唯一.index.unique 返回全部不同的索引.groupby(.index).sum()重复索引层次化索引可以使数据在一个轴上有多个索引级别。即可以用二维的数据表达更高维度的数据...原创 2020-02-09 17:15:09 · 556 阅读 · 0 评论 -
机器学习数据科学包(五)——Pandas基础运算:重新索引,丢弃数据,函数应用,排序和排名,数据唯一性,成员资格
目录Pandas基础运算1.重新索引 2.丢弃部分数据3.函数应用4.排序和排名5.数据唯一性及成员资格Pandas基础运算1.重新索引Series.reindex(index = index,columns=columns,fill_value='值/ffill/bfill') 拷贝DataFrame2.丢弃...原创 2020-02-07 21:33:48 · 268 阅读 · 0 评论 -
机器学习数据科学包(四)——Pandas基础核心数据结构:Series,DataFrame,Panel
Pandas核心数据结构SeriesSeries 是一维带标签的数组,数组里可以放任意的数据(整数,浮点数,字符串,Python Object)。其基本的创建函数是:s = pd.Series(data, index=index)其中 index 是一个列表,用来作为数据的标签。data 可以是不同的数据类型:Python 字典 ndarray 对象 一个标量值,如 ...原创 2020-02-07 21:00:30 · 649 阅读 · 0 评论 -
机器学习数据科学包(三)——Pandas实例:MovieLens电影数据分析
电影数据分析准备工作从网站 grouplens.org/datasets/movielens 下载MovieLens 1M Dataset数据。数据说明参阅数据介绍文件README.txt利用 Pandas 分析电影评分数据数据读取 数据合并 女生最喜欢的电影排行榜/男生最喜欢的电影排行榜 男女生评分差距最大的电影 -> 某类电影女生喜欢,但男生不喜欢 ...原创 2020-02-07 20:52:22 · 1412 阅读 · 0 评论 -
机器学习数据科学包(二)——Pandas入门
目录二、查看数据三、选择四、缺失值处理五、相关操作六、合并七、分组八、重塑(Reshaping)九、时间序列十、Categorical十一、画图十二、导入和保存数据本文对十分钟入门Pandas进行翻译详见英文版https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html...翻译 2020-02-07 00:03:57 · 460 阅读 · 0 评论 -
机器学习数据科学包(一)——numpy数据包
目录1.numpy概述2.矩阵构造方法:3.矩阵形状维度相关方法:4.矩阵基本操作5.矩阵查找6.矩阵遍历7.矩阵合并8.矩阵分割9.矩阵浅拷贝与深拷贝1.numpy概述NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。安装:python...原创 2020-02-04 12:37:07 · 773 阅读 · 0 评论