探索世界,改变世界

善于分享知识,勤于探索知识,知识就是力量。

【已阅书籍记录】知识积累,坚持不懈;积跬步乃以至千里,积小流足以成江海。

阅读让我感受到思维的碰撞,碰撞产生的火花就是收获。 坚持学习,坚持阅读,充实自己,扩展思路。   目录 Linux的  数据库 蟒蛇 C语言和数据结构 网络 运维 虚拟化云计算 分布式 架构 DevOps&敏捷 人工智能 数学 数据科学 程序人生 英语学习 ...

2017-08-24 20:03:28

阅读数 421

评论数 0

【Web】一种好用的浏览器页面打印(打印销售小票)方法

使用工具:lodop 工具地址:http://www.c-lodop.com/download.html   样例: <html> <head> <meta http-equ...

2019-02-26 08:55:27

阅读数 119

评论数 0

【Pandas】Pandas处理大数据集的方法(内存优化,减少内存使用量90%)

目录 将内存使用量减少高达90%的方法 使用棒球比赛日志 数据帧的内部表示 了解子类型 使用子类型优化数值列 将Numeric与String存储进行比较 使用分类优化对象类型 读取数据时选择类型 分析棒球比赛 总结和后续步骤   将内存使用量减少高达90%的方法 当使用具...

2019-01-21 11:09:53

阅读数 238

评论数 0

【Pandas ERROR】 ValueError: cannot convert float NaN to integer

  报错语句 data['col'] = data['col'].apply(int)   报错提示 ValueError: cannot convert float NaN to integer   报错原因 因为字段中存在NaN值,所以无法转换为指定类型   解决办法 ...

2018-12-26 15:38:42

阅读数 180

评论数 0

【Pandas】Pandas数据分类

分类是与统计中的分类变量对应的pandas数据类型。分类变量采用有限的,通常是固定的可能值(类别 ; R中的级别)。例如性别,社会阶层,血型,国家归属,观察时间或通过李克特量表评级。 与统计分类变量相比,分类数据可能有一个顺序(例如“强烈同意”与“同意”或“第一次观察”与“第二次观察”),但数值...

2018-11-02 11:47:13

阅读数 553

评论数 0

【数据可视化】25个即时改进数据可视化设计的技巧

数据可视化不是关于显示数据; 它是以更容易理解的方式显示数据 - 这就是真正的价值所在。如果你想真正“看到”我们的意思,请看一下这个快速视频: 视频地址:https://vimeo.com/29684853 不幸的是,很多人认为将几张图表放在一起意味着您正在进行数据可视化设计。即使您对...

2018-11-01 09:19:51

阅读数 175

评论数 0

【数据分析】电商平台数据分析

目录 电商模式 年度重复购买率 转化率 年均购买率 购物车大小 弃买率 客户获取成本 平均每位客户营收 关键词和搜索词 推荐接受率 病毒性 邮件列表点入率 线下线上相结合 运送时间 库存可供率 图解电子商务   电商模式 年度重复购买率 用户获取模式:9...

2018-10-31 09:43:27

阅读数 341

评论数 0

【数据分析】数据指标

目录 什么是好的数据指标? 找出正确的数据指标的五点方法 1、定性指标与量化指标 2、虚荣指标与可付诸行动的指标 3、探索性指标与报告性指标 4、先见性指标与后见性指标 5、相关性指标与因果性指标 市场细分、同期群分析、AB测试和多变量分析 市场细分 同期群分析 AB和多变...

2018-10-30 18:12:36

阅读数 230

评论数 0

【数据分析】电商平台应该分析哪些数据?

首先要构建电商数据分析的基本指标体系,主要分为8个类指标 目录 1. 总体运营指标 2.网站流量指标 3. 销售转化指标 4. 客户价值指标 5.商品类指标 6. 市场营销活动指标 7. 风控类指标 8. 市场竞争指标   1. 总体运营指标 从流量、订单、总体销...

2018-10-30 14:32:34

阅读数 399

评论数 0

【Pandas】Pandas分组:结合切割和应用

通过“分组依据”,我们指的是涉及以下一个或多个步骤的过程: 根据某些标准将数据拆分为组。 将功能独立应用于每个组。 将结果组合到数据结构中。 其中,分割步骤是最直接的。实际上,在许多情况下,我们可能希望将数据集拆分成组并对这些组执行某些操作。 应用步骤: 聚合:计算每个组的摘要统计(或统计) ...

2018-10-30 10:18:33

阅读数 155

评论数 0

【数据可视化】Python中使用Bokeh进行数据可视化,第一部分:入门

提升您的可视化游戏 如果没有有效的方法来传达结果,最复杂的统计分析可能毫无意义。最近我在研究项目中的经验使我们利用数据科学来提高建筑能效,从而推动了这一点。在过去的几个月里,我的一个团队成员一直致力于一种称为小波变换的技术,该技术用于分析时间序列的频率成分。该方法取得了积极的成果,但她在解释它时...

2018-10-30 09:33:59

阅读数 263

评论数 0

【数据科学】数据科学家必需熟知的5个基本统计概念

目录 统计特征 概率分布 维度降低 过采样和欠采样 贝叶斯统计   在执行数据科学(DS)艺术时,统计数据可以成为一种强大的工具。从高层次来看,统计学是利用数学来进行数据的技术分析。诸如条形图之类的基本可视化可能会为您提供一些高级信息,但通过统计,我们可以以更加信息驱动和有针对性...

2018-10-29 14:21:48

阅读数 82

评论数 0

【python】Python的可变对象和不可变对象与其充当函数参数的后果

python有两种对象: 不可变对象,如:int、float、str、tuple 可变对象,如:list、dict、set 目录 可变对象与不可变对象的含义 不可变对象 案例说明: 小结 可变对象 案例说明: 小结 总结 函数的参数传递 不可变对象作为函数参数 案...

2018-10-24 18:01:00

阅读数 85

评论数 0

【机器学习】Python中随机森林的实现与解释

通过从单个决策树构建来使用和理解随机森林的指南。

2018-10-24 15:05:26

阅读数 407

评论数 2

【编程】避免 异步/等待 地狱

  async/await 将我们从回调地狱中释放出来,但人们已经开始滥用它,导致异步/等待地狱的诞生。 在本文中,我将尝试解释async/await 地狱是什么,我还将分享一些提示以逃避它。   什么是异步/等待地狱 在使用异步JavaScript时,人们经常一个接一个地编写多个语...

2018-10-24 10:55:38

阅读数 58

评论数 0

【数据科学】使用Python建立你的数据处理肌肉记忆

数据预处理流程   在搜索语法时,您是否因为破坏数据分析流而感到沮丧?为什么你在第三次查找之后仍然不记得它?这是因为你还没有足够的练习来为它建立肌肉记忆。 现在,想象一下,当您编写代码时,Python语法和函数会根据您的分析思路从指尖飞出。那太棒了!本教程旨在帮助您实现目标。 我建议每...

2018-10-24 10:48:08

阅读数 127

评论数 0

【数据处理】pandas数据处理优化方法小结

数据处理时使用最多的就是pandas库,pandas在数据处理方面很强大,集成了数据处理和数据可视化。 pandas的可视化使用的是matplotlib。   回到主题 问题1: 计算数据的某个字段的所有值,对其字段所有值进行运算 处理的字段数据为时间戳,需要计算该时间戳距离现在的时间...

2018-10-24 10:18:05

阅读数 88

评论数 0

【统计学】T校验、方差分析

总体均值的推断: t分布和正态分布的选择t分布:     总体标准差未知总体服从正态分布。     总体标准差短且样本容量大于30。正态分布:     总体标准差已且总体服从正态分布     总体标准差已知且样本容量大于30   t分布的自由度 = n - 1 n = 样本容量   基...

2018-10-22 14:54:06

阅读数 149

评论数 0

【统计学】假设校验

  假设是对总体参数(如总体成数p或总体均值)的陈述 假设检验是用于检验有关总体参数的陈述是否正确的标准过程 原假设和备择假设: 原假设()是假设检验最初的假设。对于本章中的假设检验,原假设总是为总体参数声明一个 其体数值,因此可以得到一个等式形式     (原假设):总体参数=陈述值 ...

2018-10-22 14:48:53

阅读数 100

评论数 0

【统计学】从样本到总体

总体和样本均值的符号:     n = 样本容量     u = 总体均值     x = 样本均值     σ = 总体标准差     s = 样本标准差   样本均值分布的特征:对于任何样本均值的分布: 样本容量越大,样本均值的分布越接近正态分布 总体中所有样本均值的平均值与总...

2018-10-22 14:38:56

阅读数 217

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭