自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 《商务与经济统计》贝叶斯定理笔记

不合格零件更可能来自哪个供应商?开始分析前,对所关心的事件给出初始估计,称为先验概率。然后,从样品等消息源获取新信息对先验概率修正,得到后验概率。问题: 假设制造厂从两个不同的供应商处购买零件,该工厂有65%的零件来自供应商1,35%的零件来自供应商2. 不合格产品历史情况如下表,不合格产品更可能来自哪个供应商?供应商合格产品百分率不合格产品百分率供应商1982...

2020-02-01 09:57:19 384

原创 《如何用数据解决实际问题》笔记(下)

《如果用数据解决实际问题》笔记(上)里写到数据分析流程包括:明确问题 —> 大致把握形状—> 锁定问题的关键—> 锁定原因 —> 讨论对策我们以tableau超市示例数据为例练习书中内容,数据包括订单日期、客户名称、产品类别、销售额、地区及利润等字段。第一步:锁定问题关键观察数据发现西北地区销售额一直较低,我们就来找找原因。第二步:锁定原因根据分解法,猜测西北...

2020-01-31 16:40:21 1883

原创 《如何用数据解决实际问题》笔记(上)

全书以找到汽车销量下降原因为例,总结了数据分析的流程。解决问题,你需要“流程”数据分析的目的是针对“原因是什么,需要采取什么行动”等问题得出结论。解决问题的流程:明确问题 —> 大致把握形状—> 锁定问题的关键—> 锁定原因 —> 讨论对策分解数据,找到问题的关键划定范围,即what型假设,从所有数据中找到问题的关键。不划定对象数据多个因素一起很难找...

2020-01-31 14:25:35 1238

原创 完美解决cuda安装 could not find compatible graphics hardware问题

为安装tensorflow-gpu,真是踩了很多坑。我的笔记本安装cuda10.0没问题,但是tensorflow-gpu怎么也安不上,放弃。改安装cuda9.0但是显示找不到图像硬盘,遂youtube翻到解决方案。设备管理器–显示适配器–详细信息–硬件id中找到硬件id,保存到一个txt文件中备用。出现cuda安装问题的页面不要关,最小化。找到cuda/display.driver文...

2019-04-09 15:21:06 12769 8

原创 mysql+python+pyecharts电商数据分析

数据来自天池数据集,淘宝2004年11月18日至12月18日用户行为数据,本文导入446000条数据到本地mysql用于分析。数据下载地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=46数据包括字段为user_id、item_id、behavior_type(1–点击,2–收藏,3–加购物车,4–支付)、user_geohash、...

2019-04-04 11:28:54 4967 1

原创 python+word2vec+随机森林 微博文本情感极性分析(一)

数据源:36万条微博文本,已标注情感。0:开心,1-3:低落或忧伤。本文只考虑情感正负极性。项目思路:分词后利用gensim.models.word2vec训练词向量,词向量表示训练集文本,分别用sklearn训练SVM及tensorflow训练CNN模型,模型调优、比较及评估。加载相关python包:import jiebaimport reimport pandas as pdfr...

2019-03-21 11:39:25 6238 5

原创 论文笔记1:《基于跨文章答案验证的多文章机器阅读理解》(ACL 2018) Yizhong Wang等

0 摘要真实网络数据的机器阅读理解(MRC)往往需要机器通过分析搜索引擎检索到的多个文章来回答问题。与单文章MRC相比,多文章MRC更具有挑战性,因为可能从不同文章得到多个混淆候选答案。为了解决者问题,本文提出端到端的神经网络,使得不同文章得到的候选答案可以基于它们代表的内容互相验证。具体地讲,我们的模型联合训练三个模块,即基于三个因素预测答案:答案的边界、答案内容及多文章间答案验证。实验结果...

2019-03-20 14:39:47 552

原创 kaggle笔记03:Google Analytics Customer Revenue Prediction

1. 定义问题预测顾客销售额综合的对数函数。yuser=∑i=1ntransactiony_{user} = \sum_{i=1}^{n}transactionyuser​=i=1∑n​transactiontarget=ln(yuser+1)target = ln(y_{user} +1)target=ln(yuser​+1)2. 数据准备把json格式的数据变成多个列json_...

2018-10-18 11:02:50 1585

原创 kaggle笔记02: Titanic: Machine Learning from Disaster(二)

参考:https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy5. 模型建立。如何选择模型?sklearn官网上算法粗略选择图:根据上图,考虑SVC和ensemble clasifiers。本例建议从决策树、bagging、随机森林和boosting开始,因为好理解好调试,然...

2018-10-15 15:16:47 270

原创 kaggle笔记01: Titanic: Machine Learning from Disaster(一)

参考:https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy1. 定义问题: 预测是否存活。as the saying goes, don’t put the cart before the horse. This sensational tragedy shocked the inter...

2018-10-12 10:59:01 243

原创 cs231n笔记05:神经网络训练(下)

lecture7梯度检查梯度检查很简单,将分析梯度与数字梯度相比较。事实上,很容易出错。 - 利用中心化梯度公式。 df(x)dx=f(x+h)−f(x−h)2hdf(x)dx=f(x+h)−f(x−h)2h\frac{df(x)}{dx}=\frac{f(x+h)-f(x-h)}{2h} 计算两次损失函数耗时更久一些,但梯度计算准确。 - 利用相对误差比较 如果数字梯度f′...

2018-08-28 11:54:36 186

原创 cs231n笔记04:神经网络训练(上)

lecture6前向传播计算举例。神经网络按层组织的重要原因是,这个结构可以通过矩阵运算简单高效评估神经网络。所有样本会被并行化高效计算出来。表达能力。神经网络全连接层定义了权重向量的函数族,这些函数表达能力是什么?不能用神经网络建模吗?事实上,一个隐含层的神经网络可以近似任何函数。那为什么采用更多层数的原因是,数学上可以近似,但实践中效果较差。实践中深度网络效果比单层网络好。3层比2层好...

2018-08-25 12:14:48 292

原创 cs231n笔记03:卷积神经网络

lecture5 CNN结构CNN与一般神经网络类似,特点就是图像在卷积网络中大幅减少了网络中的参数。普通神经网络是全连接结构,数据量大的话参数太多。既浪费资源,又容易过拟合。卷积层神经元按三维排列,深度、宽度、高度。卷积网络包含卷积层、池化层和全连接层。以CIRAR-10为例,Input是[32*32]的RGB图,维度为32*32*3。卷积层计算一小部分区域与权重的点积,如果...

2018-08-24 09:50:45 348

原创 cs231n 笔记02:反向传播与2-NN示例

lecture4 反向传播 反向传播链式计算梯度。常用激活函数:sigmoid函数将实数压缩到[0,1],tanh函数将实数压缩到[-1,1]。 sigmoid缺点:sigmoid函数饱和时梯度消失,神经元的激活在接近0或1处梯度几乎为0;sigmoid输出不是零中心的。如果输入神经元的数据总是正数,那么w的梯度在反向传播的过程中,要么全部是正数,要么全部是负数这会导致...

2018-08-23 11:15:29 308

原创 cs231n笔记01:线性分类、最优化

lecture1 课程介绍David Maris70年代阐述对计算机视觉的理解,首先是边缘和曲线,然后是2.5D,将深度信息或场景的不连续结合起来,最终将所有信息组合起来组成3D模型。计算机视觉,最早用几何体去识别物体,然后是图像分割,90年代用adaboost算法面部识别。21世纪前十年,基于特征识别图像,识别关键特征。开始出现重要的数据集用来做目标识别。2012年多伦多大学研发的七层...

2018-08-20 11:37:58 310

原创 西瓜书笔记05:聚类

聚类聚类性能评价外部指标,与某个参考模型进行比较。 定义聚类给出的簇划分C,参考模型簇划分C∗C∗C^{*},定义 ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪a=|SS|,b=|SD|,c=|DS|,d=|DD|,SS=(xi,xj)|λi=λj,λ∗i=λ∗jSS=(xi,xj)|λi=λj,λ∗i≠λ∗jSS=(xi,xj)|λi≠λj,λ∗i=λ∗jSS=(xi,xj)|λi≠λj,λ∗i...

2018-08-17 11:42:45 387

原创 西瓜书笔记04:集成学习

集成学习集成学习分为两大类: - 代表:boosting,个体学习器间存在强依赖,串行生成序列化方法。 - 代表:bagging,个体学习器间不存在强依赖,同时生成的并行化方法。Boosting先从训练集训练基学习器,根据基学习器的表现对训练样本进行调整,使先前基学习器做错的训练样本在后续受到更多关注,调整后的样本分布训练下一个基学习器,最终将基学习器加权结合。代表是Ada...

2018-08-16 16:27:02 178

原创 西瓜书笔记03:贝叶斯分类

贝叶斯分类@[后验概率|最大似然估计|贝叶斯分类|吉布斯采样]贝叶斯决策论 贝叶斯决策考虑如何基于概率和误判损失来选择最优的类别标记。贝叶斯判定准则:最小化总体风险,只需在每个样本上选择使条件风险R(c|x)最小的类别标记,即h∗(x)=argminR(c|x)h∗(x)=argminR(c|x)h^{*}(x)=argminR(c|x),R(c|x)为样本x分类为c的期...

2018-08-16 10:43:03 379

原创 西瓜书笔记02:支持向量基

支持向量基@[拉格朗日乘子法|对偶问题|KKT条件|核函数|hinge损失] 存在多个超平面将样本划分的情况下,选择对训练样本局部扰动容忍性最好的。间隔与支持向量划分超平面的法向量为w=(w1;w2;...;wd)w=(w1;w2;...;wd)w=(w_{1};w_{2};...;w_{d}),则超平面为wTx+b=0wTx+b=0w^{T}x+b=0。任一点x到超平面...

2018-08-15 15:26:21 221

原创 西瓜书笔记01:logistic回归、决策树

logistic回归@[回归|分类|极大似然|泰勒级数|牛顿法|Hessian矩阵|sigmoid函数] 线性模型可以用来回归学习,若要做分类就要找一个单调可微函数将分类标记y与线性回归预测值联系起来。如何求w和b?二分类任务中,sigmoid函数即可将预测值z转换为0/1值。其中,sigmoid function:y=11+e−zy=11+e−zy=\frac{1}{...

2018-08-15 09:22:37 698

Spark高级数据分析(完整高清)

本书是使用Spark进行大规模数据分析的实战宝典,由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。

2018-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除