SummerStoneS-CSDN博客

原创 data lake和数仓data silo的区别

Data lake and data silo are two different concepts in data management. A data lake is a centralized repository of raw data that is designed to store a large amount and wide variety of data in its native form. The data is structured, semi-structured, or uns

2023-07-11 15:03:53 225

原创 XGBoost python安装问题和模型原理

XGBoost windows 安装问题直接pip install 可能遇到下面这个问题No files/directories in c:\users\yaron\appdata\local\temp\pip-build-qsfrwo\xgboost\pip-egg-info (from PKG-INFO)下面这个网站给了可操作的解决方案https://stackover...

2022-12-30 13:35:18 192 1

原创文本相似度

1. 编辑距离，集合相似度def get_jaccard_distance(seq1, seq2): "seq1 and seq2 are two sequences, return value 0 means equal, 1 means totally different" set1, set2 = set(seq1), set(seq2) return 1 - len(set1 & set2) / float(len(set1 | set2))def ge

2022-02-18 17:08:30 183

原创 seaborn混淆矩阵画热力图heatmap

conf_mat = confusion_matrix(test_data_y, pre_label)df_cm = pd.DataFrame(conf_mat, index=class_label, columns=class_label)heatmap = sns.heatmap(df_cm, annot=True, fmt='d', cmap='YlGnBu')heatmap.yaxis.set_ticklabels(heatmap.yaxis.get_ticklabels(), rotatio

2022-02-17 10:08:34 3082

原创读价值有感：我为什么要换工作，一个优秀的consultant/投资人需要什么

1. 需要做有impact的事，希望能创造价值，以及做有创新的事而不是简单地提供情报，希望可以脚踏实地地推动一些事情落地，参与其中一个优秀的consultant/投资人需要什么1）真正理解和拥有同理心同理心不只是理解你的客户，还包括理解你的竞争对手，理解你的员工，理解行业生态中的所有人，甚至还要理解你客户的客户2）好奇心对这个世界保持好奇，对围绕这个生态的所有东西，甚至超出这个行业的东西保持好奇3）真正地理解趋势4）做全面的通才科技在不断地变，自己也要变，变得更加全.

2021-04-06 23:10:51 115

原创启动jupyter(ipython) notebook遇到AttributeError: module 'attr' has no attribute 's'

启动anaconda prompt，一次运行下面两个命令pip uninstall attrconda install --force attrs

2020-04-13 13:28:04 2726 3

原创 python prophet 预测销量及参数调整

prophet是一个比较自动的时间序列模型，在时间足够长的情况下，可以捕捉到年周期，月周期，季度周期，一周内的周期等，以及长期趋势，它可以通过图直观地展示各个因素对预测结果的影响，也可以在单一的数据序列（例如销量）之外加入其它影响序列的因素，比如说节日的影响，我们可以给各个节日的影响强度自定义数字，以及节日的前期预热，和节日的延续时间窗prophet一个重要特性是changepoint，它会自...

2020-03-22 21:38:56 6101 4

原创 pycharm无法识别自己写的包，或numpy等第三方包

pycharm 无法识别自己写的包1. run->edit configurations->勾选add source roots to PYTHONPATH2. 在自己的文件跟目录名上右键，选中mark directory as->sources RootPycharm 无法识别numpy等第三方包run->edit configurations-&...

2019-12-19 14:15:05 786

原创快消品季度销量排序预测-线性回归预测分析

问题定义：每季第8周要对明年这个季的每款产品的13周销量（一个季度）做排序，即今年要对明年售出的产品按照销量从大到小的排序做预测（但目前并不是以明年该季度的销量作为衡量预测准确度的标准，而是以今年对明年该季的下单数据作为标准，即给工厂下单lock capacity的产品订单排序，下订单的环节叫OBR(order booking review)，一般提前开售日期9个月，从OBR到开售还会新增个别...

2019-09-03 22:59:51 2173

原创数据预处理--数据检查、变量标准化、分布变换、构造特征、特征筛选

一、数据检查1）缺失值有时候是null,有时候全是0，这个需要比想象中更仔细，因为取数的同学们有时候会默认填充0，有时候是因为数据库迁移，产品刚刚发布所以太远的数据没有等原因造成的，这些需要及时确认对于有些变量仅对特定的人有值，（比如说理财的产品偏好，当然只有买了理财的人才会有偏好数据可以分析），可以给没有这个值的人填充一个数值，可以是999这样这个字段不会取到的大值（但是要注意在模型...

2019-08-09 12:09:28 658

原创深度学习理论——激活函数sigmoid,tanh,ReLU,Leaky ReLU,Maxout

1.sigmoid能够将实数域变换到0-1之间，因解释性良好在很早以前广泛使用但因为它有两个致命缺点所以现在已经很少用了1）梯度消失如果输入太大或者太小，sigmoid的梯度会接近于0，那么参数将无法更新，模型就不收敛；另外初始化也需要小心，如果初始化的权重太大，经过激活函数时也会使神经元饱和，无法更新参数2）输出不是0均值sigmoid的输出并非0均值，对于后面的层来...

2019-06-23 16:37:36 536

原创用pymssql 实现 python 连接 sql server，local host连接失败问题，及常见的前置数据处理操作

建立连接 import pymssql connect = pymssql.connect('(local)', '', '', 'db_name') if connect: print("successfully connect to db") else: print("fail to connect to db")...

2019-06-14 15:10:40 2267

原创 SVM支持向量机分类模型SVC理论+python sklean.svm实践

支持向量机是啥有一次公司项目上的同事一起吃饭（面前是一锅炒土鸡），提到了支持向量机，学文的同事就问支持向量机是什么，另一个数学物理大牛想了一下，然后说，一种鸡。。。确实很难一句话解释清楚这只鸡。。。support vector machine从字面意思来说应该是依靠support vector来划分数据（其实也能回归啦。。）的机器学习模型。它是一个凸优化问题。SVM的核心将数据的特征投射到高维，然后

2017-11-16 17:32:07 11560 1

原创 python Beautiful soup网页解析-星座网

beautiful-soup是用来解析网页的利器。我们先打开一个网页code=200表示访问成功from urllib.request import urlopenurl='http://www.xzw.com/astro/virgo/?appid=bds'response=urlopen(url)response.getcode()content=response.read(

2017-11-01 15:00:57 792

原创 Scrapy爬取电商网站京东奶粉商品价格数据-附各种问题解决

主要的目标是爬奶粉的价格，商品名称和sku_id，想知道奶粉的平均价格。首先在cmd里建立一个新的scrapy spider project(1)scrapy startproject milkprice 创建一个项目(2)创建一个spider，注意要先cd到有.cfg的路径下创建用scrapy genspider -l 命令可以查看spider模板scr

2017-10-19 10:24:06 2338

原创 python re 正则表达式总结匹配指定字符

正则表达式在爬虫和处理字符串的过程中常常会被用到，例如解决下面两个问题（1）去除爬取到的结果里面的特殊字符/[^]（2）我只想让文本中留下中文字符。python的re包提供了强大的正则表达式应用，能让我们方便的解决类似上面的问题。具体的步骤也比较简单（1）首先我们要根据正则表达式的规则写出我们想要去寻找或者匹配的模式，例如：[^\u4E00-\u9FD5]+，是说匹配除了中文以外的

2017-10-08 12:44:50 26610

原创 python3 apistar 创建web api 根据前端用户输入返回数据库查询结果

apistar是一个针对python3的web api框架，详见https://github.com/encode/apistar1. pip install apistar2. 在cmd里切换到希望的文件路径下，启动一个项目 apistar new . 然后我们可以看到生成了两个python文件，app.py和test.py3. 查看交互式API文档，在浏览器里输入 http:/

2017-10-06 16:45:05 6376 2

转载各种流行数据库介绍

【2016数据库排名年度盘点】说到盘点，首先肯定得看看DB-Engines的全球数据库排名。下表是2017年1月份前20名数据库引擎最新排名。DB-Engines 2017-01数据库前20名列表DB-Engines这个排名在业界引用得非常多，权威性也很高，总体来说比较客观，它不像很多咨询机构采用市场调查，或者某个数据库厂商发布的数据，而是通过以下6个方面的统计数据来综

2017-10-03 16:32:19 7838

原创 mongodb和pymongo创建数据库和基础操作

1. MongoDB下载地址：https://www.mongodb.com/download-center#communityMongoDB是一种介于关系型和非关系型中间的数据库。它是文档型数据库（一个文档包含多个键/值对），多个文档组成集合，多个集合组成数据库。一个MongoDB 实例可以承载多个数据库。这里集合的概念类似关系型数据库中的表。MongoDB的优势在于数据存储与交互非常灵

2017-10-03 16:09:15 10274

原创 TensorFlow学习Day3读取csv文件,动手写个logistic,softmax分类模型

上一篇讲到了logistic模型，今天用kaggle竞赛的数据集Titanic做一个小小的训练示范。数据集可以从官网下载：https://www.kaggle.com/c/titanic/data首先我们写一个读取文件的函数# 读取文件def read_csv(batch_size, file_name, record_defaults): filename_queu

2017-10-02 12:26:55 2332

原创 tensorflow学习day2简单监督学习模型及用tf.train.Saver实现检查点恢复

对于有监督学习问题，通用的模型训练和评估框架可以是：# 有监督学习框架import tensorflow as tfdef inference(x): # 计算模型在x上的输出，返回结果def loss(x, y): # 根据x对应的实际y值和模型给出的y值计算损失def inputs(): # 读取训练数据x和ydef train(total_los

2017-09-30 14:26:01 1410

原创用pyecharts Geo实现动态数据热力图城市找不到问题解决

pyecharts 是一个用于生成 Echarts 图表的类库。 Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。本文主要是用pycharts中的Geo绘制中国地图，在图中显示出各个地区的人均销售额传入的数据形如：[('上海'，30), ('北京',50), ... ...]li=[]for i,row in filtered.iterrows():

2017-09-24 19:20:51 11048

原创 mitmproxy爬APP数据

mitmproxy是一个支持SSL的HTTP中间人代理工具，它允许你检查HTTP和HTTPS流量并支持直接改写请求。它位于客户端和Server端之间，它可以获取客户端的Request，然后修改再发送给Server端；Server端得到Request之后再发出相应的Response，又会被mitmproxy拦截，如果你想修改response，便可修改后再发给客户端。pip install m

2017-09-24 17:20:33 2009

原创通过 pyodbc 连接access读取数据

pyodbc是一个开源的python模块，可以方便我们连接到ODBC数据库。pyodbc 遵从Python DB API 2.0规范。install pyodbc后即可通过python 连接 Microsoft SQL Server, Oracle, DB2, Microsoft Access, Sybase ASE, InterBase下面的代码实现从access中读取数

2017-09-24 16:04:48 3673

原创 tensorflow学习day1 基本框架

1. 什么是TensorFlow这里摘出官网的两句措辞：（1）TensorFlow is an open source software library for machine intelligence（2）TensorFlow is an open source software library for numerical computation using data flow gr

2017-09-23 21:50:46 481

SummerStoneS的博客