e卵石-CSDN博客

原创《商务与经济统计》贝叶斯定理笔记

不合格零件更可能来自哪个供应商？开始分析前，对所关心的事件给出初始估计，称为先验概率。然后，从样品等消息源获取新信息对先验概率修正，得到后验概率。问题：假设制造厂从两个不同的供应商处购买零件，该工厂有65%的零件来自供应商1，35%的零件来自供应商2. 不合格产品历史情况如下表，不合格产品更可能来自哪个供应商？供应商合格产品百分率不合格产品百分率供应商1982...

2020-02-01 09:57:19 384

原创《如何用数据解决实际问题》笔记（下）

《如果用数据解决实际问题》笔记（上）里写到数据分析流程包括：明确问题 —> 大致把握形状—> 锁定问题的关键—> 锁定原因 —> 讨论对策我们以tableau超市示例数据为例练习书中内容，数据包括订单日期、客户名称、产品类别、销售额、地区及利润等字段。第一步：锁定问题关键观察数据发现西北地区销售额一直较低，我们就来找找原因。第二步：锁定原因根据分解法，猜测西北...

2020-01-31 16:40:21 1883

原创《如何用数据解决实际问题》笔记（上）

全书以找到汽车销量下降原因为例，总结了数据分析的流程。解决问题，你需要“流程”数据分析的目的是针对“原因是什么，需要采取什么行动”等问题得出结论。解决问题的流程：明确问题 —> 大致把握形状—> 锁定问题的关键—> 锁定原因 —> 讨论对策分解数据，找到问题的关键划定范围，即what型假设，从所有数据中找到问题的关键。不划定对象数据多个因素一起很难找...

2020-01-31 14:25:35 1238

原创完美解决cuda安装 could not find compatible graphics hardware问题

为安装tensorflow-gpu，真是踩了很多坑。我的笔记本安装cuda10.0没问题，但是tensorflow-gpu怎么也安不上，放弃。改安装cuda9.0但是显示找不到图像硬盘，遂youtube翻到解决方案。设备管理器–显示适配器–详细信息–硬件id中找到硬件id，保存到一个txt文件中备用。出现cuda安装问题的页面不要关，最小化。找到cuda/display.driver文...

2019-04-09 15:21:06 12769 8

原创 mysql+python+pyecharts电商数据分析

数据来自天池数据集，淘宝2004年11月18日至12月18日用户行为数据，本文导入446000条数据到本地mysql用于分析。数据下载地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=46数据包括字段为user_id、item_id、behavior_type(1–点击，2–收藏，3–加购物车，4–支付)、user_geohash、...

2019-04-04 11:28:54 4967 1

原创 python+word2vec+随机森林微博文本情感极性分析（一）

数据源：36万条微博文本，已标注情感。0：开心，1-3：低落或忧伤。本文只考虑情感正负极性。项目思路：分词后利用gensim.models.word2vec训练词向量，词向量表示训练集文本，分别用sklearn训练SVM及tensorflow训练CNN模型，模型调优、比较及评估。加载相关python包：import jiebaimport reimport pandas as pdfr...

2019-03-21 11:39:25 6238 5

原创论文笔记1:《基于跨文章答案验证的多文章机器阅读理解》(ACL 2018) Yizhong Wang等

0 摘要真实网络数据的机器阅读理解（MRC）往往需要机器通过分析搜索引擎检索到的多个文章来回答问题。与单文章MRC相比，多文章MRC更具有挑战性，因为可能从不同文章得到多个混淆候选答案。为了解决者问题，本文提出端到端的神经网络，使得不同文章得到的候选答案可以基于它们代表的内容互相验证。具体地讲，我们的模型联合训练三个模块，即基于三个因素预测答案：答案的边界、答案内容及多文章间答案验证。实验结果...

2019-03-20 14:39:47 552

原创 kaggle笔记03：Google Analytics Customer Revenue Prediction

1. 定义问题预测顾客销售额综合的对数函数。yuser=∑i=1ntransactiony_{user} = \sum_{i=1}^{n}transactionyuser=i=1∑ntransactiontarget=ln(yuser+1)target = ln(y_{user} +1)target=ln(yuser+1)2. 数据准备把json格式的数据变成多个列json_...

2018-10-18 11:02:50 1585

原创 kaggle笔记02： Titanic: Machine Learning from Disaster(二)

参考：https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy5. 模型建立。如何选择模型？sklearn官网上算法粗略选择图：根据上图，考虑SVC和ensemble clasifiers。本例建议从决策树、bagging、随机森林和boosting开始，因为好理解好调试，然...

2018-10-15 15:16:47 270

原创 kaggle笔记01： Titanic: Machine Learning from Disaster(一)

参考：https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy1. 定义问题: 预测是否存活。as the saying goes, don’t put the cart before the horse. This sensational tragedy shocked the inter...

2018-10-12 10:59:01 243

原创 cs231n笔记05：神经网络训练（下）

lecture7梯度检查梯度检查很简单，将分析梯度与数字梯度相比较。事实上，很容易出错。 - 利用中心化梯度公式。 df(x)dx=f(x+h)−f(x−h)2hdf(x)dx=f(x+h)−f(x−h)2h\frac{df(x)}{dx}=\frac{f(x+h)-f(x-h)}{2h} 计算两次损失函数耗时更久一些，但梯度计算准确。 - 利用相对误差比较如果数字梯度f′...

2018-08-28 11:54:36 186

原创 cs231n笔记04：神经网络训练（上）

lecture6前向传播计算举例。神经网络按层组织的重要原因是，这个结构可以通过矩阵运算简单高效评估神经网络。所有样本会被并行化高效计算出来。表达能力。神经网络全连接层定义了权重向量的函数族，这些函数表达能力是什么？不能用神经网络建模吗？事实上，一个隐含层的神经网络可以近似任何函数。那为什么采用更多层数的原因是，数学上可以近似，但实践中效果较差。实践中深度网络效果比单层网络好。3层比2层好...

2018-08-25 12:14:48 292

原创 cs231n笔记03：卷积神经网络

lecture5 CNN结构CNN与一般神经网络类似，特点就是图像在卷积网络中大幅减少了网络中的参数。普通神经网络是全连接结构，数据量大的话参数太多。既浪费资源，又容易过拟合。卷积层神经元按三维排列，深度、宽度、高度。卷积网络包含卷积层、池化层和全连接层。以CIRAR-10为例，Input是[32*32]的RGB图，维度为32*32*3。卷积层计算一小部分区域与权重的点积，如果...

2018-08-24 09:50:45 348

原创 cs231n 笔记02：反向传播与2-NN示例

lecture4 反向传播反向传播链式计算梯度。常用激活函数：sigmoid函数将实数压缩到[0,1]，tanh函数将实数压缩到[-1,1]。 sigmoid缺点：sigmoid函数饱和时梯度消失，神经元的激活在接近0或1处梯度几乎为0；sigmoid输出不是零中心的。如果输入神经元的数据总是正数，那么w的梯度在反向传播的过程中，要么全部是正数，要么全部是负数这会导致...

2018-08-23 11:15:29 308

原创 cs231n笔记01：线性分类、最优化

lecture1 课程介绍David Maris70年代阐述对计算机视觉的理解，首先是边缘和曲线，然后是2.5D，将深度信息或场景的不连续结合起来，最终将所有信息组合起来组成3D模型。计算机视觉，最早用几何体去识别物体，然后是图像分割，90年代用adaboost算法面部识别。21世纪前十年，基于特征识别图像，识别关键特征。开始出现重要的数据集用来做目标识别。2012年多伦多大学研发的七层...

2018-08-20 11:37:58 310

原创西瓜书笔记05：聚类

聚类聚类性能评价外部指标，与某个参考模型进行比较。定义聚类给出的簇划分C，参考模型簇划分C∗C∗C^{*}，定义 ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪a=|SS|,b=|SD|,c=|DS|,d=|DD|,SS=(xi,xj)|λi=λj,λ∗i=λ∗jSS=(xi,xj)|λi=λj,λ∗i≠λ∗jSS=(xi,xj)|λi≠λj,λ∗i=λ∗jSS=(xi,xj)|λi≠λj,λ∗i...

2018-08-17 11:42:45 387

原创西瓜书笔记04：集成学习

集成学习集成学习分为两大类： - 代表：boosting，个体学习器间存在强依赖，串行生成序列化方法。 - 代表：bagging，个体学习器间不存在强依赖，同时生成的并行化方法。Boosting先从训练集训练基学习器，根据基学习器的表现对训练样本进行调整，使先前基学习器做错的训练样本在后续受到更多关注，调整后的样本分布训练下一个基学习器，最终将基学习器加权结合。代表是Ada...

2018-08-16 16:27:02 178

原创西瓜书笔记03：贝叶斯分类

贝叶斯分类@[后验概率|最大似然估计|贝叶斯分类|吉布斯采样]贝叶斯决策论贝叶斯决策考虑如何基于概率和误判损失来选择最优的类别标记。贝叶斯判定准则：最小化总体风险，只需在每个样本上选择使条件风险R(c|x)最小的类别标记，即h∗(x)=argminR(c|x)h∗(x)=argminR(c|x)h^{*}(x)=argminR(c|x)，R(c|x)为样本x分类为c的期...

2018-08-16 10:43:03 379

原创西瓜书笔记02：支持向量基

支持向量基@[拉格朗日乘子法|对偶问题|KKT条件|核函数|hinge损失] 存在多个超平面将样本划分的情况下，选择对训练样本局部扰动容忍性最好的。间隔与支持向量划分超平面的法向量为w=(w1;w2;...;wd)w=(w1;w2;...;wd)w=(w_{1};w_{2};...;w_{d})，则超平面为wTx+b=0wTx+b=0w^{T}x+b=0。任一点x到超平面...

2018-08-15 15:26:21 221

原创西瓜书笔记01：logistic回归、决策树

logistic回归@[回归|分类|极大似然|泰勒级数|牛顿法|Hessian矩阵|sigmoid函数] 线性模型可以用来回归学习，若要做分类就要找一个单调可微函数将分类标记y与线性回归预测值联系起来。如何求w和b？二分类任务中，sigmoid函数即可将预测值z转换为0/1值。其中，sigmoid function：y=11+e−zy=11+e−zy=\frac{1}{...

2018-08-15 09:22:37 698

Spark高级数据分析（完整高清）

本书是使用Spark进行大规模数据分析的实战宝典，由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark，然后介绍了用Spark和Scala进行数据处理的基础知识，接着讨论了如何将Spark用于机器学习，同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用，比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。

2018-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人