学习笔记
盐味橙汁
这个作者很懒,什么都没留下…
展开
-
Pandas学习笔记六——合并数据集:Concat操作
合并数据集:Concat操作#为了方便后面的演示,这里定义一个能够快速创建DataFrame的函数import numpy as npimport pandas as pddef make_df(cols, index): """一个简单的DataFrame""" data原创 2018-08-13 23:58:48 · 2846 阅读 · 0 评论 -
Matplotlib学习笔记——配置图例
配置图例简单的图例import matplotlib.pyplot as pltplt.style.use('classic')%matplotlib inlineimport numpy as npx = np.linspace(0, 10, 1000)fig, ax = plt.subplots()ax.plot(x, np.sin(x), '-b', label...原创 2018-08-17 10:33:18 · 5236 阅读 · 0 评论 -
Matplotlib学习笔记——创建多子图
创建多子图 有时候需要从多个角度对数据进行对比。Matplotlib为此提出了子图的概念:在较大的图形中同时放置一组较小的坐标轴。这些子图可能是画中画、网格图,或者是其他更复杂的布局形式。plt.axes:手动创建子图 创建坐标轴的最基本的方法就是使用plt.axes 函数。这个函数的默认配置是创建一个标准的坐标轴,填满整张图。它还有一个可选参数,由图形坐标系统的四个值构...原创 2018-08-17 11:14:06 · 4926 阅读 · 0 评论 -
Matplotlib学习笔记——画三维图
用Matplotlib画三维图 最基本的三维图是由(x, y, z)三维坐标点构成的线图与散点图,可以用ax.plot3D和ax.scatter3D函数来创建,默认情况下,散点会自动改变透明度,以在平面上呈现出立体感三维的线图和散点图#绘制三角螺旋线from mpl_toolkits import mplot3d%matplotlib inlineimport ma...原创 2018-08-17 17:20:28 · 73387 阅读 · 12 评论 -
Matplotlib学习笔记——盒型图(boxplot)
盒型图(boxplot)最近在摆弄数据离散度的时候遇到一种图形,叫做盒图(boxplot)。它对于显示数据的离散的分布情况效果不错。盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如上图。下四分位数、...转载 2018-08-17 19:07:16 · 6131 阅读 · 0 评论 -
用Seaborn做数据可视化
用Seaborn做数据可视化 Seaborn在Matplotlib的基础上开发了一套API,为默认的图形样式和颜色提供了理智的选择,为常用的统计图形定义了许多简单的高级函数,并与Pandas DataFrame的功能有机结合。Seaborn不仅有许多高级的画图功能,而且可以改写Matplotlib的默认参数,从而用简单的Matplotlib脚本获得更好的效果。Seaborn的主要思想是用高...原创 2018-08-17 19:39:24 · 1007 阅读 · 0 评论 -
Scikit-Learn学习笔记——模型验证与超参数网格搜索
超参数与模型验证 模型验证就是在选择模型和超参数之后,通过对训练数据进行学习,对比模型对已知数据的预测值与实际值的差异。模型验证的正确方法是使用留出集评估模型性能,即先从训练模型中的数据中留出一部分,然后用这部分留出来的数据检验模型性能。 但是,使用留出集使得模型失去了一部分训练机会,解决这个问题的方法是交叉验证,也就是做一组拟合,让数据的每个子集既是训练集,又是验证集。...原创 2018-08-20 17:25:00 · 1476 阅读 · 0 评论 -
Scikit-Learn学习笔记——特征工程
特征工程 工程中的数据挖掘用到的数据很少拥有干净的特征矩阵——很多特征的取值是非数值的,这些特征不能直接被计算机直接用于计算。因此,机器学习实践中更重要的步骤之一是特征工程——找到与问题有关的任何信息,把它们转换成特征矩阵的数值。分类特征 一种常见的非数值特征是分类数据。例如,浏览房屋数据的时候,除了看到“房价”(price)和“面积”(square)之类的数值特征,还会...原创 2018-08-20 19:25:23 · 352 阅读 · 0 评论 -
Scikit-Learn学习笔记——朴素贝叶斯
朴素贝叶斯 朴素贝叶斯模型是一组非常简单快速的分类方法啊,通常适用于维度非常高的数据集。因为运行速度快,而且可调参数少,因此非常适合为分类问题提供快速粗糙的基本方案。之所以成为“朴素”或“朴素贝叶斯”,是因为如果对每一种标签的生成模型(用于计算每个标签的P(特征|Li)P(特征|Li)P(特征|L_i)进行非常简单的假设,就能找到每种类型生成模型的近似解,然后就可以使用贝叶斯分类。...原创 2018-08-20 19:44:57 · 1120 阅读 · 0 评论 -
Matplotlib学习笔记——频次直方图、数据区间划分和分布密度
频次直方图、数据区间划分和分布密度%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltplt.style.use('seaborn-white')data = np.random.randn(1000)#最基本的频次直方图命令plt.hist(data)#调节具体参数#bins调节横坐...原创 2018-08-17 10:00:49 · 56525 阅读 · 0 评论 -
Scikit-Learn学习笔记——高斯混合模型(GMM)应用:分类、密度估计、生成模型
高斯混合模型 k-means聚类模型非常简单并且易于理解,但是他的简单性也为实际应用带来了挑战。特别是实际应用中,k-means的非概率性和它仅根据到簇中心点的距离来指派将导致性能低下。高斯混合模型可以看作是k-means的一个扩展,但它也是一种非常强大的聚类评估工具。k-means算法的缺陷 在实际聚类的过程中,两个簇往往会存在重合部分。k-means算法对于重合部分的...原创 2018-08-22 17:15:29 · 63719 阅读 · 2 评论 -
Matplotlib学习笔记——常用技巧
Matplotlib常用技巧 matplotlib最重要的特性就是具有良好的操作系统兼容性和图形显示底层接口兼容性。Matplotlib支持几十种图形显示接口与输出格式,这种跨平台、面面俱到的特定已经成为Matplotlib最强大的功能之一。在IDLE中画图import matplotlib as mplimport matplotlib.pyplot as plti...原创 2018-08-16 09:57:31 · 711 阅读 · 0 评论 -
Matplotlib学习笔记——配置图形参数
配置图形参数使用面向对象的绘图接口时会创建figure和axes对象。figure实例可以看成是一个能够容纳各种坐标轴、图形、文字和标签的容器,axes是一个带有刻度和标签的矩形,最终会包含所有可视化的图形元素。import matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npimport panda...原创 2018-08-16 11:09:13 · 3469 阅读 · 0 评论 -
Matplotlib学习笔记——简易散点图
简易散点图除了线性图,另外一种常见的图形是简易散点图。简易散点图和线性图不同之处在于,这种图形不再由线段(-, -., –等)连接,而是由独立的点、圆圈或者其他形状构成。用plt.plot()画散点图%matplotlib inlineimport matplotlib.pyplot as pltplt.style.use('seaborn-whitegrid')impo...原创 2018-08-16 13:09:40 · 9832 阅读 · 0 评论 -
Matplotlib学习笔记——绘制误差线
绘制误差线 对任何一种科学测量方法来说,准确的衡量数据误差都是无比重要的事情,甚至比数据本身还重要.在数据可视化的结果中用图形将误差有效的显示出来,就可以提供更充分的信息.基本误差线#以下代码在notebook中执行%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npplt.styl...原创 2018-08-16 17:09:57 · 11160 阅读 · 0 评论 -
Matplotlib学习笔记——密度线与等高线
密度线与等高线 在二维图上用等高线或者彩色图来表示三维数据是个不错的方法。Matplotlib提供了三个函数来解决这个问题:用plt.contour()绘制等高线、用plt.contourf绘制带有填充颜色的等高线图、用plt.imshow显示图形。plt.contour()函数#生成第三维数据的自定义函数def f(x,y): return np.sin(x)...原创 2018-08-16 17:49:19 · 3892 阅读 · 0 评论 -
Scikit-Learn学习笔记——k-means聚类:图像识别、色彩压缩
k-means聚类 k-means是一种无监督学习模型——聚类算法的一种算法。k-means算法可以在不带标签的多维数据集中寻找确定数量的簇。 最优的聚类结果需要符合一下两个假设 “簇中心点“是属于该簇的所有数据点坐标的算术平均值 一个簇的每个点到该簇中心点的距离,比到其他簇中心点的距离短。 #简单演示k-means算法%matplotlib in...原创 2018-08-22 12:57:18 · 13447 阅读 · 1 评论 -
Scikit-Learn学习笔记——学会调用sklearn评估器API
sklearn初探 机器学习的本质就是借助数学模型理解数据。当我们给模型装上可以适应观测数据的可调参数时,学习就开始了,此时的程序被认为具有从数据中“学习”的能力。一旦模型可以拟合旧的观测数据,那么它们就可以预测并解释新的观测数据。 目前,python有不少可以实现各种机器学习算法的程序库。Scikit-Learn是最流行的程序包之一,它为各种常见机器学习算法提供了高效版本。Sc...原创 2018-08-19 20:12:15 · 2348 阅读 · 0 评论 -
Scikit-Learn学习笔记——手写数字(MNIST)探索
手写数字(MNIST)探索#加载并可视化手写数字import matplotlib.pyplot as pltfrom sklearn.datasets import load_digitsdigits = load_digits()digits.images.shapefig, axes = plt.subplots(10,10, figsize=(8, 8),subplo...原创 2018-08-19 21:35:52 · 4946 阅读 · 0 评论 -
Scikit-Learn学习笔记——线性回归(基函数回归、岭回归正则化、Lasso正则化)
线性回归 如果说朴素贝叶斯是解决分类任务的好起点,那么线性回归模型就是解决回归任务的好起点。简单的线性回归#简单线性回归import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns;sns.set()rng = np.random.Random...原创 2018-08-20 22:37:58 · 3947 阅读 · 3 评论 -
Scikit-Learn学习笔记——支持向量机(SVM)
支持向量机 支持向量机(SVM)是非常强大、灵活的有监督学习算法,既可以用于分类,也可用于回归。在贝叶斯分类器中我们首先对每个类进行了随机分布的假设,然后用生成的模型估计新数据点的标签,这属于生成分类方法。而SVM属于判别分类方法:不再为每类数据建模,而是用一条分割线(二维空间中的直线或者曲线)或者流体(多维空间中的曲线、曲面等概念的推广)将各种类型分割开。支持向量机:边界最大化...原创 2018-08-21 11:40:19 · 2726 阅读 · 1 评论 -
Scikit-Learn学习笔记——SVM应用:人脸识别
SVM应用——人脸识别#下载数据from sklearn.datasets import fetch_lfw_peoplefaces = fetch_lfw_people(min_faces_per_person=60)print(faces.target_names)print(faces.images.shape)#输出结果['Ariel Sharon' 'Colin P...原创 2018-08-21 13:21:23 · 6751 阅读 · 2 评论 -
小冰创作诗歌机制详解
论文:Image Inspired Poetry Generation in XiaoIce解读论文内容 这篇论文介绍了微软小冰从一张图片生成一首现代诗的过程模型。简单来说,这个过程就是给定一个图像,首先从图像中提取几个表示对象和感知到的情感的关键字,然后根据这些关键词与人类诗歌的关联,将它们扩展到相关的新的关键词,接着每个关键词作为每行诗的核心,使用双向语言模型逐步向左右拓展生成整句。这个...原创 2019-04-18 17:36:49 · 2751 阅读 · 0 评论 -
七个习惯之四:双赢思维
人际交往的六种模式利人利己(双赢)这种模式会促使人不断地在所有的人际交往中寻找双边利益。双赢就是双方有福同享,皆大欢喜,这种结果会让所有人都愿意接受决定,完成计划。双赢者把生活看作一个合作的舞台,而不是一个角斗场。一般人看事情多用二分法:非强即弱,非胜即败。其实世界足够大,人人都有足够的立足空间,他们之得不必就视为自己之失。不论你是总裁还是门卫,只要已经从独立自主过渡到相互依赖的阶段,你就开始...原创 2019-05-05 02:49:47 · 6669 阅读 · 1 评论 -
七个习惯之五:知彼解己
人们总是喜欢匆匆忙忙地下结论,以善意地建议快刀斩乱麻地解决问题。不愿意花时间去诊断,深入了解一下问题地症结。若用一句话归纳我在人际关系方面学到的一个重要的原则,那就是:知彼解己——首先寻求去了解对方,然后再争取让对方了解自己。这一原则是进行有效人际交流的关键。你真的听懂了吗?如果你想和我交往,想对我有影响力,你首先要了解我,而做到这一点不能只靠技巧。如果我觉察你在使用某种技巧,就会有受骗和被操...原创 2019-05-05 02:50:57 · 1240 阅读 · 0 评论 -
七个习惯之六:统合综效
统合综效地基本心态是:如果以为具有相当聪明才智的人跟我意见不同,那么对方的主张必定有我尚未体会的奥妙,值得加以理解。与人合作最重要的是,重视不同个体的不同心理、情绪与智能,以及个人眼中所见到的不同世界。假如两个人意见相同,其中一人必属多余,与所见略同的人沟通,毫无益处,要有分歧才有收获。统合综效就是整体大于部分之和,也就是说各个部分之间的关系也是整体的一个组成部分,但又不仅仅是一个组成部分,而是...原创 2019-05-05 02:51:24 · 7448 阅读 · 0 评论 -
七个习惯之七:不断更新
人生最值得的投资就是磨练自己,因为生活与服务人群都得靠自己,这是最珍贵的工具。工作本身并不能带来经济上的安全感,具备良好的思考、学习、创造与适应能力,才能立于不败之地。拥有财富,并不代表经济独立,拥有创造财富的能力才真正可靠。自我提升和完善的四个层面 习惯七是个人产能。它保护并优化你所拥有的最重要的资产——你自己。它从四个层面更新你的天性,那就是:身体、精神、智力、社会/情感。从根本上讲...原创 2019-05-05 02:51:49 · 4029 阅读 · 0 评论 -
人际关系的本质
个人独立不代表真正的成功,圆满人生还须追求公众的成功。不过,群体的互赖须以个人真正的独立为先决条件,想要抄近路是办不到的。良好人际关系的基础是自制与自知之明。爱人之前,必须先爱自己,了解自我才懂得分寸,也才能真正爱护自己。独立是互赖的基础,缺乏独立人格,却以为玩弄人际关系的技巧,纵使得逞一时,也不过是运气罢了。维系人与人之间的情谊,最要紧的不在于言语或行为,而在于本性。言不由衷、虚伪造作的表面功...原创 2019-05-05 02:54:47 · 1601 阅读 · 0 评论 -
七个习惯之二:以终为始
心灵之旅假设你正在前往殡仪馆的路上,要去参加一位至亲的丧礼。抵达之后,居然发现亲朋好友齐聚一堂,是为了向你告别?也许这是许久之后的事,但姑且假定,这时,亲族代表、友人、同事或社团伙伴,即将上台追述你的生平。现在请认真想一想:你希望人们对你以及你的生活有什么样的评价?你是个称职的丈夫、妻子、父母、子女或亲友吗?你是个令人怀念的同事或伙伴吗?你希望他们怎样评价你的人格?你希望他...原创 2019-05-05 03:14:54 · 2536 阅读 · 0 评论 -
EM算法详细推导(启发性)
EM算法期望最大化算法,是寻找具有潜在变量地概率模型地最大似然解的一种通用的方法。下面介绍一般形式的EM算法的推导过程。我们把所有的观测变量联合起来记作X={x1,x2,...,xN}X=\{x_1, x_2, ..., x_N\}X={x1,x2,...,xN},将所有的隐含变量记作Z={z1,z2,xN}Z=\{z_1, z_2, x_N\}Z={z1,z2,xN}。这里只考虑...原创 2019-05-08 18:14:30 · 1090 阅读 · 1 评论 -
七个习惯之三:要事第一
习惯三:要事第一积极主动的习惯告诉我们:“你是创造者,你掌控自己的人生”,这个习惯地基础事人类特有地四大天赋,即想象力、良知、独立意识以及最为重要地自我意识。以终为始事关于第一次的创造或者智力上的创造的习惯,这个习惯同我们的基本思维定式和对自己的最高期望值、价值观密切相关,其原则基础是想象力和良知两大天赋。习惯三要事第一则是关于第二次的创造或者体力上的创造的习惯,是对前面两种习惯的实施、执行和自...原创 2019-04-23 00:59:57 · 3263 阅读 · 0 评论 -
小冰聊天机制综述
心理学研究表明,快乐和有意义的谈话常常是相伴而生的。因此,在社交媒体时代,越来越多的人被数字化连接,社交聊天机器人已成为一种重要的互动方式,这并不令人意外。与早期的聊天机器人不同,小冰是一款社交聊天机器人,旨在满足用户的沟通、情感和社交归属感需求,并具有同理心、个性和技能,集情商和智商于一身,以预期的CPS为衡量标准,优化用户的长期参与度。小冰的整体结构包括三部分:用户体验层、对话引擎层和数据层...原创 2019-04-27 00:34:18 · 1967 阅读 · 0 评论 -
Scikit-Learn学习笔记——决策树和随机森林
决策树和随机森林 随机森林是一种无参数的集成算法,通过集成多个比较简单的评估器形成累积效果。这种集成方法的学习效果经常出人意料,往往能超过各个组成部分的总和:也就是说,若干个评估器的多数投票的最终效果往往优于单个评估器投票的结果。决策树 随机森林的基础是决策树。决策树采用非常直观的方式对事物进行分类和打标签:你只需要问一系列问题就可以进行分类。二叉树分支方法可以非常有效的...原创 2018-08-21 16:50:04 · 2734 阅读 · 0 评论 -
Scikit-Learn学习笔记——用随机森林识别手写数字
用随机森林识别手写数字from sklearn.datasets import load_digitsdigits = load_digits()#显示前几个数字图像fig = plt.figure(figsize=(6,6))fig.subplots_adjust(left=0, right=1, bottom=0, top=1, hspace=0.05, wspace=0.0...原创 2018-08-21 17:42:53 · 4694 阅读 · 2 评论 -
Scikit-Learn学习笔记——主要成分分析(PCA)应用:可视化、噪音过滤、人脸识别
主要成分分析(PCA) 主要成分分析(PCA)可能是应用最广泛的无监督算法之一。虽然PCA是一种非常基础的降维算法,但它仍然是非常有用的工具,尤其适用于数据可视化、噪音过滤、特征抽取和特征工程等领域。由于PCA用途广泛、可解释性强,所以可以有效应用于大量情景和科学中。对于任意高维的数据集,可以从PCA开始,可视化点间的关系、理解数据中的主要变量。PCA并不是一个对每个高维数据集都有效的算法...原创 2018-08-21 21:06:44 · 6237 阅读 · 0 评论 -
端到端的机器学习项目
端到端的机器学习项目主要步骤: Frame the problem and look at the big picture Get the data Explore the data to gain insight Prepare the data to better expose the underlying data patterns to Machine L...原创 2018-08-25 11:36:57 · 428 阅读 · 0 评论 -
Word2Vector之详解Skip-gram
word2vector——skip-gram 谷歌2013年提出的word2vector是目前最常用的词嵌入模型之一。Word2Vector实际上是一种浅层的神经网络模型,它有两种网络结构,分别时CBOW(Continues Bag of Words)和Skip-gram,这篇文章主要是介绍Skip-gram。 Skip-gram的主要目标是根据当前词来预测上下文中各个词的生成概率。比如说...原创 2018-11-05 12:21:29 · 2592 阅读 · 1 评论 -
论文:Get To The Point Summarization with Pointer-Generator Networks解读
论文:Get To The Point: Summarization with Pointer-Generator Networks解读Abstract类型的文本摘要存在的问题:容易产生不准确的事实;倾向于重复相同的内容。注:如上面所示,作为基线的seq2seq+Attention这样的纯粹的生成式模型存在1.无法生成OOV词汇;2.歪曲事实两个问题。Pointer Generato...原创 2019-04-04 16:05:07 · 969 阅读 · 0 评论 -
高效能人士的七个习惯
人生有三个桶:Now、Soon、LatterNow的桶中装的是当下的事情。一年之内的目标:希望工作能寻找到12个新的客户尝试越野将直通车的活动交接到其他老师手中,为橘子园3年以上的学员提供转轨咨询。Soon的桶中装的是重要的事情。未来3-5年内的目标:把直通车注册成一个社会企业,5年内,不管女儿的哪个城市,都能在那个城市生活一段时间Latter的桶中装的是使命。一生要...原创 2019-04-20 18:10:52 · 1454 阅读 · 0 评论 -
七个习惯之一:积极主动
《高效能人士的七个习惯》——积极主动在刺激和回应之间,人有选择的权利。选择的自由包括人类的四种天赋:自我意识:思考自我思维过程的能力想象力:超越当前现实而在头脑中进行创造的能力良知:明辨是非,坚持行为原则,判断思想、言行正确与否的能力独立意志:基于自我意识、不受外力影响而自行其是的能力积极主动的定义积极主动不仅指行事的态度,还意味着为人一定要对自己的人生负责。个人行为取决于自身的...原创 2019-04-22 00:56:20 · 5742 阅读 · 0 评论