自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 安装使用 d3graph 时出现 TypeError 的解决方法

观察报错信息可以看到出错的代码(902 行)使用了类型指定语法,这是最新的 python 特性,与旧版本的 python 环境不兼容。可能是开发者或 pip 没有匹配到合适的版本,所以安装时没有问题,但是 import 时会报错。修改后即可正常使用。

2023-09-01 15:55:34 236

原创 SQL 复习 03

函数与关键字用法说明round(x, n)四舍五入,x为浮点数,n为保留的位数ceil(x)向上取整floor(x)向下取整truncate(x, n)截断x,n为保留的位,该位之后的数值置零,位数表示示例:321.123,其中小数点前用负值表示,小数点位数为0,即 truncate(x, 0) 等同于舍弃小数部分取整mod(a, b)返回 a 除以 b 的余数abs(x)返回 x 的绝对值rand()返回 0-1 的随机浮点数s

2023-08-12 12:47:41 764

原创 检验样本正态性

在统计学中很多推论与正态分布有关,并且很多统计量构造为满足正态分布的形式,很多分布在特定条件近似于正态分布。因此,在统计推断中经常需要判断样本的正态性。本文介绍一些常用的方法。

2023-07-11 21:38:28 363

原创 Git 常用操作总结

等,其中最常用的便是。

2023-07-05 09:18:04 498

原创 医药销售数据分析

如图,左右分别为 0-12 和 12-24 小时中的下单数量分布,可以直观地看到有较高的集中趋势。根据此行为习惯,可以在对应时段提高商品 pv,增加客服销售人员支持,促进用户下单和提高转化率,以提高销售业绩。如图为总样本不同渠道和不同 SKU 的销售额,趋势过于集中,容易因为某个渠道或某个产品的问题引起销售额较大的波动。因此可以进一步研究其特点,结合地区销售情况,用户行为习惯等分析,推出营销活动,作为提高销售业绩的突破口。如图,为不同员工的销售额和订单量,大体上处于一致的水平。

2023-06-30 10:59:58 1594

原创 使用 fitter 拟合数据分布

前面的文章中通过假设对比来检验样本是否服从泊松分布。得出的结论是总体分布不服从泊松分布,那么如何找到与总体分布最接近的分布呢?不可能一个个分布去验证。这里便可以用到fitter这个库。fitter是一个小型的第三方库,提供了一个简单的类来拟合数据的分布,亦即找出与样本最接近的理想的分布。

2023-06-30 09:44:14 846

原创 检验样本是否服从泊松分布

本文以一个为例,研究顾客购买次数的分布规律,尝试从中估计总体的分布,以对后续的订单数据进行预测或进行业绩的对比。

2023-06-30 09:42:25 737

原创 PyEcharts 学习总结

Echarts是一个基于 JavaScript 的图表库,用于在 HTML 中生成可交互的图表(关于更多 js 图表库可以参考 CSDN 上的这篇博客PyEcharts旨在提供在 Python 中使用 Echarts 的 API,以便将数据可视化的流程整合到 Python 数据处理的流程当中。以下是四个文档和示例网站,各有特点。利用好这几个网站基本上就可以解决所有可能遇到的问题,而不需要在搜索引擎中漫无目的地翻查。

2023-06-30 09:37:25 1008

原创 解决 pyecharts 地图不显示的问题

在 pyecharts 中如果修改了 online host,会导致绘制的地图显示不全,需要将 host 改回默认的。

2023-06-29 17:38:38 845

原创 提高 pyecharts 生成的网页的加载速度

使用 Pyecharts 生成的可视化作品是 HTML 的形式,需要使用特定的 js 代码。如果生成完全离线可用的文件,文件里会包含大量的 js 代码,文件会过大不利于分享。如果生成没有 js 代码的文件,则默认在 pycharts.org 上加载相应的 js,访问速度比较慢。因此可以参考以下操作更改 HOST,使用 CDN 加速。

2023-06-29 17:37:08 305

原创 餐饮市场分析(下)

关于展示的内容和开发过程的介绍直接看。项目,项目网站已经同时部署在。

2023-06-29 17:29:02 78

原创 餐饮市场分析(上)

注意到箱形图部分城市的四分位已经到零点,主要是部分商家首页没有推荐的折扣商品,导致计算产品的参考均值的时候得到缺失值。在 MtSpider 中的 parse_data 环节已经进行简单的清洗,主要根据返回的 json 文档的数据结构,将其分割成两个表,方便处理。明显的趋势是:价格亲民的品牌,有遍地开花的趋势,反之价格高的品牌店铺数量较少。首先看一下各区的分布(绘制这个图的时候都没发现,现在才惊觉有个逻辑上的错误,影响不大,懒得改了)。不过也是可以反映一些信息的,毕竟哪怕是刷的分,也是要成本的。

2023-06-29 17:26:30 135

原创 超市零售数据可视化分析(Plotly 指南)

CSDN 上不能插入 HTML,可以在 GitHub Page 上查看:项目首次发布于上 –。感兴趣的可以直接上去 Fork 之后自己做。由于上面只能用 Jupyter Notebook,而且还没有权限 DIY 工作环境,于是线下重新做一下。,包含全球范围内的大型超市四年间的零售订单数据,有 24 个字段,5w+ 条订单记录。下面将详细了解数据内容,进行数据清洗以及可视化分析。

2023-06-29 17:20:29 1641

原创 Bokeh 绘图基础与常用功能

在 Github 上查看交互式的绘图结果 |在这篇文章中,从最基本的绘图开始,逐步学习 Bokeh 中常用的绘图功能,目标是能满足大部分基础的绘图需求。

2023-06-29 17:19:48 217

原创 在前端开发中使用 Python

在使用 Python 进行数据分析的时候,经常需要创建一些动态、交互式的可视化作品。一般会用到如 Plotly、Pyecharts、Bokeh 等库,这些库都是基于前端技术创建可视化作品。所以在自定义可视化的时候,就会接触到很多前端开发的内容,但是很多 Pythoner 又不熟悉 JS 编程。这个时候就可以借助Brython这个库,直接在 JS 脚本里面写 Python 代码。听起来就很酷炫,下面通过简单的例子了解它的逻辑。

2023-06-29 17:12:58 748

原创 Modin 入门学习

是一个 Python 第三方库,用于加速 Pandas 的 API 执行速度。原始的 Pandas 是单线程执行的,而 Modin 则重新打包了 Pandas 里面的 API,使其同时在多个内核中运行,提高硬件性能的利用率。使用方法很简单,安装 Modin 后,将导入 pandas 的语句由改为即可。这时候使用的便是由 Modin 包装后的 API。但是它并没有覆盖全部的 API,遇到库中不包含的 API,它会自动切换为原始的 Pandas 执行。也就是说,使用上与原始的 Pandas 是完全一致的。

2023-06-29 17:11:54 612

原创 通过一个简单的例子理解 Python 中的多线程

命令,会退出 Python 终端,但是循环还是会继续运行,查看任务管理器会发现 Python 进程依然存在。函数已经在一个单独的线程里面跑起来了,这时候 Python 解释器还可以在新的线程里面处理新的操作,比如算一下 1+1 啥的。只要进程没结束,这个线程也会一直运行,直到完成。例如在机器学习中,我们可能需要对数据执行不同的特征工程,应用于不同的模型,来对比性能。就可以通过多个线程来并行地执行,加快处理速度。可以直接在命令行终端运行这一段代码,就会开始了一个线程,它属于 Python 这个进程。

2023-06-29 17:07:54 76

原创 介绍几款在线编程工具(Python)

这个是数据科学社区用的比较多的平台,相对来说也比较成熟,功能比较完善,现阶段有比较慷慨的免费计算资源。(1) 创建一个(或已存在的)Github 仓库,里面包含你要共享或在线编辑的 notebook(2) 在浏览器打开以下网址:对应上图仓库的链接就是(3) 等待片刻就在服务器搭建好一个虚拟环境,并加载出 Jupyter 的页面(4) 第一次加载会慢一点,后面的操作就很流畅了。然后就像在本地服务使用 Jupyter Notebook 一样该干啥干啥就可以了。

2023-06-29 17:06:47 1013

原创 常用回归模型评估指标

本文总结了各个评估指标的优缺点及其相互关系。

2023-06-28 16:58:58 157

原创 特征工程知识点总结

非系统且不严谨的总结。

2023-06-28 16:11:53 149

原创 SQL 复习 02

【代码】SQL 复习 02。

2023-03-15 11:59:47 62 1

原创 SQL 复习 01

简单复习了一下 SQL,记录一下速查表例子示例表:/* Employee */+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80000 | 2 || 3 | Sam |.

2022-01-15 12:11:25 445

原创 关于 Outlook 上莫名其妙的未读邮件

今天发现 Outlook 上莫名其妙多了两封未读邮件,但是收信箱里面明明全部已读了。搜了很多文章,都没有说清楚,搞得很复杂又解决不了问题。让我来写一个。原因:其实是一个很简单的一个问题,我称之为**“薛定谔的邮件”**,就是本地的内容和服务器中的不同导致的。具体原因就是你在查看某封邮件的时候,它切换为已读了,但是因为某种错误,没有将这个状态同步到服务器。所以当再次从服务器请求信息的时候,它在服务器上还是未读的,于是显示出未读邮件。但是你本地的是已读的,所以就出现这个灵异现象。解决:右键出现灵异现象

2020-05-19 03:24:02 4143

原创 深圳数据分析职位 招聘数据研究

一、数据获取以下为数据获取的完整代码,直接使用 get 请求数据,网站只需验证正确的 User-Agent。同时在 JobSpider 中初步解析整理数据,使用 BeautifulSoup + CSS 解析数据,使用正则表达式整理数据完善字段。具体的解析逻辑参考网页源码。# -*- coding: utf-8 -*-"""爬取 51Job-深圳-数据分析 招聘职位数据"""impor...

2020-05-08 01:47:34 578

原创 2019-nCoV 疫情传播模拟

武汉必胜!中国必胜!2020 新年之际,新型冠状病毒疫情在全国各地陆续出现,尤其武汉人民深受其害。为了支援疫区,同时打发被“软禁”在家的时光,决定研究一下目前的疫情,看看是否能发现一些有用的结论。在网上浏览一下,对于疫情数据的可视化以及建模分析,目前已经做了大量的工作,并且已经建立实时监控疫情的系统。于是准备从另一个方面入手,从本质上模拟疫情的传播,并对比理想状态下的传播于实际情况的区别。...

2020-03-08 17:57:29 1345 4

原创 Jekyll 学习笔记

简介Jekyll是一个简单的博客形态的静态站点的生产机器。它有一个模版目录,包含原始的文本格式文档,通过一个转换器(如Markdown)和Liquid渲染器转化成一个完整的可发布的静态网站。安装配置# windows下,首先安装ruby、下载rubygems压缩文件、然后运行其根目录中的setup.rbruby setup.rb# 使用gem安装jekyll,如出现错误按提示安装依赖g...

2020-03-08 17:43:41 345

原创 链家二手房价分析

深圳二手房价分析—— 纵得广厦千万间,难使天下寒士俱欢颜。一、问题背景最近,深圳的一个新楼盘深业中城开盘,备案价高达 13.1 万的豪宅项目,光认筹就需要缴纳 500 万的诚意金,在别的城市已经可以全款购买一套房了。单看新盘的价格,深圳早几年就已经超越北京稳居榜首了。但是最近中国房价行情网的最新数据显示,10 月份深圳二手房均价为 65,364 元/㎡,环比增长 1.07%,意味着深圳的二手...

2019-12-05 01:07:51 1410 2

原创 收藏一篇文章,关于 windows 任务计划程序

https://www.cnblogs.com/h2zZhou/p/7153762.html

2019-09-11 14:02:06 147

原创 Ubuntu卡在登陆界面,无限循环

配置了一整天的系统,还以为就这样挂了,有惊无险,写个博客压压惊。参考:https://blog.csdn.net/JJuStudent/article/details/763585981.基本上按上文的操作,但是发现 sudo su 或者 /bin/su 又或者 /bin/sudo su 都无法获取root权限(这里疯狂慌张xjb乱试了各种命令)2.然后直接使用sudo命令,报错,但是显...

2019-05-21 23:42:35 4271 2

原创 收藏一篇文章,关于梯度下降

https://mp.weixin.qq.com/s/GnV6vQxvr0Xy3YOuOQBCfw

2019-05-09 00:48:25 123

原创 关于卷积神经网络的学习记录

两篇相关文章:ResNet残差网络https://mp.weixin.qq.com/s?__biz=MzU0ODczMTEwOQ==&mid=2247492986&idx=1&sn=db87aa68405c0ebe57f6fd0b8a05c2ae&chksm=fbb804f0cccf8de6c4bae5deaf993d51a5a262dd2dfa054d84...

2019-05-06 22:31:33 166

原创 eclipse安装颜色主题插件

想给eclipse换个深色的主题,但是网上的方法都是手动配置。麻烦不说,效果很难调到合适,强迫症表示怎么看都不顺眼。最后找到一个方法,给eclipse安装主题插件。https://www.imooc.com/article/6401就是在install new software选项用以下链接安装:http://eclipse-color-theme.github.io/update/...

2019-04-26 23:22:12 615

原创 python 文件指针及文件覆盖

转载一篇博客https://www.cnblogs.com/quqinchao/p/qqczhizhen.html

2019-01-28 01:46:21 164

原创 关于from aip import AipOcr报错

最近使用百度AI的文字识别接口,入了个大坑。。。>from aip import AipOcr>...>ERROR:no module named 'ocr'>...原因应该是,aip和baidu-aip根本不是同一个包,但是你要import的时候,都是使用:import aip也不知道自己有没有理解错,反正把aip卸载了,再pip install baidu...

2019-01-17 12:12:35 18406 11

原创 python-关于报错cannot import *** from pyecharts的问题解决

可以尝试先卸载,然后换个镜像重新安装:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyecharts重装完再imoprt pyecharts可能出现no module named 'pyecharts_snapshot’的报错:这时同样安装上面的方法安装pyecharts_snapshot即可:pip install...

2018-12-16 00:55:44 32292 10

原创 关于反爬虫的破解

https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653557994&idx=3&sn=b2d54ab8e4c97102e5a3884b9b7fae27&chksm=806e3a57b719b3419c6bb65c41d84ed59bba97ed99edd1abf460490ba4a602e3904ab3...

2018-12-15 21:37:53 240

原创 在爬虫中解析网页的多种方法

https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653557681&idx=1&sn=5ba56c015b189505eeb8fadfc7641d92&chksm=806e3d0cb719b41aff6f53c7952eaaa42824e956d234e81a1f4744264a6b3f64cfefff...

2018-12-15 19:52:11 2252

原创 正则表达式入门

https://www.cnblogs.com/chuxiuhong/p/5885073.html

2018-12-15 13:54:46 85

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除