SummerStoneS-CSDN博客

原创 Beta分布--贝叶斯建模概率或比例常用分布

Beta分布是一个灵活的概率分布，通过调整 (\alpha) 和 (\beta) 可以模拟从均匀分布到极端偏态的各种形态，特别适合建模比例或概率的不确定性。其数学性质良好，是贝叶斯分析中的核心工具之一。

2025-05-11 16:03:18 1834

原创频率学派和贝叶斯学派置信区间/可信区间的区别

在重复抽样下，构造的区间有特定概率（如95%）包含真实参数。例如：“95%置信区间"意味着如果重复实验100次，大约95次构造的区间会覆盖真实参数。

2025-05-11 15:42:23 1350

原创 google ads data scientist面经

data是网页的浏览或者购买行为，预测ltv的模型要怎么建，我说用树，又问树模型中遇到outliers会怎么样，怎么处理，如果只有一个黑盒，和一个预测的结果，问首先会做什么（explore data, plot distribution)生成两列数，X1 ～ N(0,1), X2是{1,2,3}，1，2，3的出现概率是30%，60%，10%logistic regression，metrics，为什么不用accuracy。讲一个数据分析的项目，遇到了什么挑战，怎么解决的。为什么要申请这个职位。

2025-02-10 21:29:23 370

原创 bias-variance trade-off

The bias-variance dilemma (or bias-variance trade-off) is a fundamental concept in machine learning and statistical modeling that describes the trade-off between two types of errors that can occur when building predictive models:Definition: Bias refers to

2025-02-09 11:26:29 852

原创 feature selection

Cross-validation is a statistical method used to estimate the performance and generalizability of a machine learning model. It involves partitioning the data into subsets, training the model on some of these subsets, and validating the model on the remaini

2025-02-08 17:54:56 633

原创 google interview prep

Statistics and Probability:Machine Learning:Programming and Algorithms:Data Wrangling:Problem-Solving:Communication:Teamwork:A/B Testing:Predictive Modeling:Google-Specific Scenarios:Impact Assessment:Product Understanding:

2025-02-08 16:16:00 813

原创条件概率题

ConvertUC12000036000.03∣ConvertedPConvertedPConverted∣⋅PConverted∣VisitedinOctoberUOctCOct300009000.03PUUOct12000030000∣Converted0.030.03⋅0.250.25UOctCOct。

2025-02-08 16:06:42 860

原创 p value and confidence level

假设原假设是对的，观测数据求出的统计量在原假设的分布下的概率，p value是我们能得到比观测值算出的统计量还极端的概率；如果要拒绝原假设，那么alpha至少要比p大，alpha也是一类错误，即原假设是对的，但是拒绝了原假设（本来没效果，说有效果）

2025-01-26 11:54:27 1079

原创大数定律和中心极限定理

The Law of Large Numbers (LLN) and the Central Limit Theorem (CLT) are two fundamental concepts in probability theory and statistics.Law of Large Numbers (LLN):The Law of Large Numbers states that as the size of a sample increases, the sample mean will ge

2025-01-21 10:34:30 1137

原创 ARIMA & prophet

ARIMA is a popular time series forecasting model that combines three components:ARIMA model parameters are typically chosen through a process called model identification, which involves:Prophet is a forecasting tool developed by Facebook that is designed f

2025-01-20 23:34:37 915

原创神经网络常见面试题

选择合适的激活函数：使用ReLU或其变种（如LeakyReLU、ELU等），可以有效防止梯度消失，并且在一定程度上减少梯度爆炸的可能性。适当的权重初始化：使用Xavier或He初始化等方法，可以避免权重值过大或过小，从而减少梯度消失和梯度爆炸的风险。梯度裁剪：当发生梯度爆炸时，采用梯度裁剪可以限制梯度的范围，避免参数更新过大，保证训练过程的稳定性。使用BatchNormalization：BatchNormalization通过标准化每一层的输入，减小了梯度消失和爆炸的风险，稳定了训练过程。

2025-01-19 21:05:11 1302

原创 experiments and inference

Propensity Score Matching (PSM) is a statistical technique used to reduce selection bias in observational studies where random assignment is not feasible. It aims to create a control group that is statistically similar to the treatment group based on obser

2025-01-16 11:47:52 679

原创 logistic regression 求解过程

Objective Function: Logistic regression aims to optimize the log-likelihood function (or equivalently minimize the negative log-likelihood) based on the observed data. For a binary classification problem, the log-likelihood is given by:where:Convexity of t

2025-01-15 21:03:38 659

原创数据科学家基础知识篇（面试小朋友）

1.如何选择模型？（模型的评估标准）选择泛化误差最小的2.什么是误差？以及泛化误差？误差：学习器的预测值与实际输出的差异泛化误差：学习器在新样本上的误差训练误差/经验误差：学习器在训练集上的误差3.过拟合、欠拟合如何解决过拟合：–正则如何解决欠拟合：–决策树学习中扩展分支–增加迭代次数4.测试集和训练集划分的时候要注意什么尽可能保持数据分布一致5.怎么选L1正则还是L2岭回归这么好用为什么不用岭回归还考虑最普通的线性回归6.偏差，方差，噪声模型的泛化误差可以分解为偏差、方差与噪声之

2025-01-10 17:58:12 672

原创 data lake和数仓data silo的区别

Data lake and data silo are two different concepts in data management. A data lake is a centralized repository of raw data that is designed to store a large amount and wide variety of data in its native form. The data is structured, semi-structured, or uns

2023-07-11 15:03:53 484

原创 XGBoost python安装问题和模型原理

XGBoost windows 安装问题直接pip install 可能遇到下面这个问题No files/directories in c:\users\yaron\appdata\local\temp\pip-build-qsfrwo\xgboost\pip-egg-info (from PKG-INFO)下面这个网站给了可操作的解决方案https://stackover...

2022-12-30 13:35:18 307 1

原创文本相似度

1. 编辑距离，集合相似度def get_jaccard_distance(seq1, seq2): "seq1 and seq2 are two sequences, return value 0 means equal, 1 means totally different" set1, set2 = set(seq1), set(seq2) return 1 - len(set1 & set2) / float(len(set1 | set2))def ge

2022-02-18 17:08:30 269

原创 seaborn混淆矩阵画热力图heatmap

conf_mat = confusion_matrix(test_data_y, pre_label)df_cm = pd.DataFrame(conf_mat, index=class_label, columns=class_label)heatmap = sns.heatmap(df_cm, annot=True, fmt='d', cmap='YlGnBu')heatmap.yaxis.set_ticklabels(heatmap.yaxis.get_ticklabels(), rotatio

2022-02-17 10:08:34 3368

原创读价值有感：我为什么要换工作，一个优秀的consultant/投资人需要什么

1. 需要做有impact的事，希望能创造价值，以及做有创新的事而不是简单地提供情报，希望可以脚踏实地地推动一些事情落地，参与其中一个优秀的consultant/投资人需要什么1）真正理解和拥有同理心同理心不只是理解你的客户，还包括理解你的竞争对手，理解你的员工，理解行业生态中的所有人，甚至还要理解你客户的客户2）好奇心对这个世界保持好奇，对围绕这个生态的所有东西，甚至超出这个行业的东西保持好奇3）真正地理解趋势4）做全面的通才科技在不断地变，自己也要变，变得更加全.

2021-04-06 23:10:51 194

原创启动jupyter(ipython) notebook遇到AttributeError: module 'attr' has no attribute 's'

启动anaconda prompt，一次运行下面两个命令pip uninstall attrconda install --force attrs

2020-04-13 13:28:04 2918 3

原创 python prophet 预测销量及参数调整

prophet是一个比较自动的时间序列模型，在时间足够长的情况下，可以捕捉到年周期，月周期，季度周期，一周内的周期等，以及长期趋势，它可以通过图直观地展示各个因素对预测结果的影响，也可以在单一的数据序列（例如销量）之外加入其它影响序列的因素，比如说节日的影响，我们可以给各个节日的影响强度自定义数字，以及节日的前期预热，和节日的延续时间窗prophet一个重要特性是changepoint，它会自...

2020-03-22 21:38:56 7271 5

原创 pycharm无法识别自己写的包，或numpy等第三方包

pycharm 无法识别自己写的包1. run->edit configurations->勾选add source roots to PYTHONPATH2. 在自己的文件跟目录名上右键，选中mark directory as->sources RootPycharm 无法识别numpy等第三方包run->edit configurations-&...

2019-12-19 14:15:05 1039

原创快消品季度销量排序预测-线性回归预测分析

问题定义：每季第8周要对明年这个季的每款产品的13周销量（一个季度）做排序，即今年要对明年售出的产品按照销量从大到小的排序做预测（但目前并不是以明年该季度的销量作为衡量预测准确度的标准，而是以今年对明年该季的下单数据作为标准，即给工厂下单lock capacity的产品订单排序，下订单的环节叫OBR(order booking review)，一般提前开售日期9个月，从OBR到开售还会新增个别...

2019-09-03 22:59:51 2391

原创建模数据预处理--数据检查、变量标准化、分布变换、构造特征、特征筛选

一、数据检查1）缺失值有时候是null,有时候全是0，这个需要比想象中更仔细，因为取数的同学们有时候会默认填充0，有时候是因为数据库迁移，产品刚刚发布所以太远的数据没有等原因造成的，这些需要及时确认对于有些变量仅对特定的人有值，（比如说理财的产品偏好，当然只有买了理财的人才会有偏好数据可以分析），可以给没有这个值的人填充一个数值，可以是999这样这个字段不会取到的大值（但是要注意在模型...

2019-08-09 12:09:28 853 1

原创深度学习理论——激活函数sigmoid,tanh,ReLU,Leaky ReLU,Maxout

1.sigmoid能够将实数域变换到0-1之间，因解释性良好在很早以前广泛使用但因为它有两个致命缺点所以现在已经很少用了1）梯度消失如果输入太大或者太小，sigmoid的梯度会接近于0，那么参数将无法更新，模型就不收敛；另外初始化也需要小心，如果初始化的权重太大，经过激活函数时也会使神经元饱和，无法更新参数2）输出不是0均值sigmoid的输出并非0均值，对于后面的层来...

2019-06-23 16:37:36 651

原创用pymssql 实现 python 连接 sql server，local host连接失败问题，及常见的前置数据处理操作

建立连接 import pymssql connect = pymssql.connect('(local)', '', '', 'db_name') if connect: print("successfully connect to db") else: print("fail to connect to db")...

2019-06-14 15:10:40 2497

原创 SVM支持向量机分类模型SVC理论+python sklean.svm实践

支持向量机是啥有一次公司项目上的同事一起吃饭（面前是一锅炒土鸡），提到了支持向量机，学文的同事就问支持向量机是什么，另一个数学物理大牛想了一下，然后说，一种鸡。。。确实很难一句话解释清楚这只鸡。。。supportvectormachine从字面意思来说应该是依靠supportvector来划分数据（其实也能回归啦。。）的机器学习模型。它是一个凸优化问题。SVM的核心将数据的特征投射到高维，然后

2017-11-16 17:32:07 12221 2

原创 python Beautiful soup网页解析-星座网

beautiful-soup是用来解析网页的利器。我们先打开一个网页code=200表示访问成功from urllib.request import urlopenurl='http://www.xzw.com/astro/virgo/?appid=bds'response=urlopen(url)response.getcode()content=response.read(

2017-11-01 15:00:57 928

原创 Scrapy爬取电商网站京东奶粉商品价格数据-附各种问题解决

主要的目标是爬奶粉的价格，商品名称和sku_id，想知道奶粉的平均价格。首先在cmd里建立一个新的scrapy spider project(1)scrapy startproject milkprice 创建一个项目(2)创建一个spider，注意要先cd到有.cfg的路径下创建用scrapy genspider -l 命令可以查看spider模板scr

2017-10-19 10:24:06 2537

原创 python re 正则表达式总结匹配指定字符

正则表达式在爬虫和处理字符串的过程中常常会被用到，例如解决下面两个问题（1）去除爬取到的结果里面的特殊字符/[^]（2）我只想让文本中留下中文字符。python的re包提供了强大的正则表达式应用，能让我们方便的解决类似上面的问题。具体的步骤也比较简单（1）首先我们要根据正则表达式的规则写出我们想要去寻找或者匹配的模式，例如：[^\u4E00-\u9FD5]+，是说匹配除了中文以外的

2017-10-08 12:44:50 26902

原创 python3 apistar 创建web api 根据前端用户输入返回数据库查询结果

apistar是一个针对python3的web api框架，详见https://github.com/encode/apistar1. pip install apistar2. 在cmd里切换到希望的文件路径下，启动一个项目 apistar new . 然后我们可以看到生成了两个python文件，app.py和test.py3. 查看交互式API文档，在浏览器里输入 http:/

2017-10-06 16:45:05 6551

转载各种流行数据库介绍

【2016数据库排名年度盘点】说到盘点，首先肯定得看看DB-Engines的全球数据库排名。下表是2017年1月份前20名数据库引擎最新排名。DB-Engines 2017-01数据库前20名列表DB-Engines这个排名在业界引用得非常多，权威性也很高，总体来说比较客观，它不像很多咨询机构采用市场调查，或者某个数据库厂商发布的数据，而是通过以下6个方面的统计数据来综

2017-10-03 16:32:19 8128

原创 mongodb和pymongo创建数据库和基础操作

1. MongoDB下载地址：https://www.mongodb.com/download-center#communityMongoDB是一种介于关系型和非关系型中间的数据库。它是文档型数据库（一个文档包含多个键/值对），多个文档组成集合，多个集合组成数据库。一个MongoDB 实例可以承载多个数据库。这里集合的概念类似关系型数据库中的表。MongoDB的优势在于数据存储与交互非常灵

2017-10-03 16:09:15 10591

原创 TensorFlow学习Day3读取csv文件,动手写个logistic,softmax分类模型

上一篇讲到了logistic模型，今天用kaggle竞赛的数据集Titanic做一个小小的训练示范。数据集可以从官网下载：https://www.kaggle.com/c/titanic/data首先我们写一个读取文件的函数# 读取文件def read_csv(batch_size, file_name, record_defaults): filename_queu

2017-10-02 12:26:55 2468

原创 tensorflow学习day2简单监督学习模型及用tf.train.Saver实现检查点恢复

对于有监督学习问题，通用的模型训练和评估框架可以是：# 有监督学习框架import tensorflow as tfdef inference(x): # 计算模型在x上的输出，返回结果def loss(x, y): # 根据x对应的实际y值和模型给出的y值计算损失def inputs(): # 读取训练数据x和ydef train(total_los

2017-09-30 14:26:01 1544

原创用pyecharts Geo实现动态数据热力图城市找不到问题解决

pyecharts 是一个用于生成 Echarts 图表的类库。 Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。本文主要是用pycharts中的Geo绘制中国地图，在图中显示出各个地区的人均销售额传入的数据形如：[('上海'，30), ('北京',50), ... ...]li=[]for i,row in filtered.iterrows():

2017-09-24 19:20:51 11808

原创 mitmproxy爬APP数据

mitmproxy是一个支持SSL的HTTP中间人代理工具，它允许你检查HTTP和HTTPS流量并支持直接改写请求。它位于客户端和Server端之间，它可以获取客户端的Request，然后修改再发送给Server端；Server端得到Request之后再发出相应的Response，又会被mitmproxy拦截，如果你想修改response，便可修改后再发给客户端。pip install m

2017-09-24 17:20:33 2163

原创通过 pyodbc 连接access读取数据

pyodbc是一个开源的python模块，可以方便我们连接到ODBC数据库。pyodbc 遵从Python DB API 2.0规范。install pyodbc后即可通过python 连接 Microsoft SQL Server, Oracle, DB2, Microsoft Access, Sybase ASE, InterBase下面的代码实现从access中读取数

2017-09-24 16:04:48 3923

原创 tensorflow学习day1 基本框架

1. 什么是TensorFlow这里摘出官网的两句措辞：（1）TensorFlow is an open source software library for machine intelligence（2）TensorFlow is an open source software library for numerical computation using data flow gr

2017-09-23 21:50:46 567

空空如也

空空如也