- 博客(38)
- 收藏
- 关注
原创 安装使用 d3graph 时出现 TypeError 的解决方法
观察报错信息可以看到出错的代码(902 行)使用了类型指定语法,这是最新的 python 特性,与旧版本的 python 环境不兼容。可能是开发者或 pip 没有匹配到合适的版本,所以安装时没有问题,但是 import 时会报错。修改后即可正常使用。
2023-09-01 15:55:34
355
原创 SQL 复习 03
函数与关键字用法说明round(x, n)四舍五入,x为浮点数,n为保留的位数ceil(x)向上取整floor(x)向下取整truncate(x, n)截断x,n为保留的位,该位之后的数值置零,位数表示示例:321.123,其中小数点前用负值表示,小数点位数为0,即 truncate(x, 0) 等同于舍弃小数部分取整mod(a, b)返回 a 除以 b 的余数abs(x)返回 x 的绝对值rand()返回 0-1 的随机浮点数s
2023-08-12 12:47:41
826
原创 检验样本正态性
在统计学中很多推论与正态分布有关,并且很多统计量构造为满足正态分布的形式,很多分布在特定条件近似于正态分布。因此,在统计推断中经常需要判断样本的正态性。本文介绍一些常用的方法。
2023-07-11 21:38:28
458
原创 医药销售数据分析
如图,左右分别为 0-12 和 12-24 小时中的下单数量分布,可以直观地看到有较高的集中趋势。根据此行为习惯,可以在对应时段提高商品 pv,增加客服销售人员支持,促进用户下单和提高转化率,以提高销售业绩。如图为总样本不同渠道和不同 SKU 的销售额,趋势过于集中,容易因为某个渠道或某个产品的问题引起销售额较大的波动。因此可以进一步研究其特点,结合地区销售情况,用户行为习惯等分析,推出营销活动,作为提高销售业绩的突破口。如图,为不同员工的销售额和订单量,大体上处于一致的水平。
2023-06-30 10:59:58
1938
1
原创 使用 fitter 拟合数据分布
前面的文章中通过假设对比来检验样本是否服从泊松分布。得出的结论是总体分布不服从泊松分布,那么如何找到与总体分布最接近的分布呢?不可能一个个分布去验证。这里便可以用到fitter这个库。fitter是一个小型的第三方库,提供了一个简单的类来拟合数据的分布,亦即找出与样本最接近的理想的分布。
2023-06-30 09:44:14
1369
原创 PyEcharts 学习总结
Echarts是一个基于 JavaScript 的图表库,用于在 HTML 中生成可交互的图表(关于更多 js 图表库可以参考 CSDN 上的这篇博客PyEcharts旨在提供在 Python 中使用 Echarts 的 API,以便将数据可视化的流程整合到 Python 数据处理的流程当中。以下是四个文档和示例网站,各有特点。利用好这几个网站基本上就可以解决所有可能遇到的问题,而不需要在搜索引擎中漫无目的地翻查。
2023-06-30 09:37:25
1486
原创 解决 pyecharts 地图不显示的问题
在 pyecharts 中如果修改了 online host,会导致绘制的地图显示不全,需要将 host 改回默认的。
2023-06-29 17:38:38
1328
原创 提高 pyecharts 生成的网页的加载速度
使用 Pyecharts 生成的可视化作品是 HTML 的形式,需要使用特定的 js 代码。如果生成完全离线可用的文件,文件里会包含大量的 js 代码,文件会过大不利于分享。如果生成没有 js 代码的文件,则默认在 pycharts.org 上加载相应的 js,访问速度比较慢。因此可以参考以下操作更改 HOST,使用 CDN 加速。
2023-06-29 17:37:08
525
原创 餐饮市场分析(上)
注意到箱形图部分城市的四分位已经到零点,主要是部分商家首页没有推荐的折扣商品,导致计算产品的参考均值的时候得到缺失值。在 MtSpider 中的 parse_data 环节已经进行简单的清洗,主要根据返回的 json 文档的数据结构,将其分割成两个表,方便处理。明显的趋势是:价格亲民的品牌,有遍地开花的趋势,反之价格高的品牌店铺数量较少。首先看一下各区的分布(绘制这个图的时候都没发现,现在才惊觉有个逻辑上的错误,影响不大,懒得改了)。不过也是可以反映一些信息的,毕竟哪怕是刷的分,也是要成本的。
2023-06-29 17:26:30
246
原创 超市零售数据可视化分析(Plotly 指南)
CSDN 上不能插入 HTML,可以在 GitHub Page 上查看:项目首次发布于上 –。感兴趣的可以直接上去 Fork 之后自己做。由于上面只能用 Jupyter Notebook,而且还没有权限 DIY 工作环境,于是线下重新做一下。,包含全球范围内的大型超市四年间的零售订单数据,有 24 个字段,5w+ 条订单记录。下面将详细了解数据内容,进行数据清洗以及可视化分析。
2023-06-29 17:20:29
2419
1
原创 Bokeh 绘图基础与常用功能
在 Github 上查看交互式的绘图结果 |在这篇文章中,从最基本的绘图开始,逐步学习 Bokeh 中常用的绘图功能,目标是能满足大部分基础的绘图需求。
2023-06-29 17:19:48
354
原创 在前端开发中使用 Python
在使用 Python 进行数据分析的时候,经常需要创建一些动态、交互式的可视化作品。一般会用到如 Plotly、Pyecharts、Bokeh 等库,这些库都是基于前端技术创建可视化作品。所以在自定义可视化的时候,就会接触到很多前端开发的内容,但是很多 Pythoner 又不熟悉 JS 编程。这个时候就可以借助Brython这个库,直接在 JS 脚本里面写 Python 代码。听起来就很酷炫,下面通过简单的例子了解它的逻辑。
2023-06-29 17:12:58
915
原创 Modin 入门学习
是一个 Python 第三方库,用于加速 Pandas 的 API 执行速度。原始的 Pandas 是单线程执行的,而 Modin 则重新打包了 Pandas 里面的 API,使其同时在多个内核中运行,提高硬件性能的利用率。使用方法很简单,安装 Modin 后,将导入 pandas 的语句由改为即可。这时候使用的便是由 Modin 包装后的 API。但是它并没有覆盖全部的 API,遇到库中不包含的 API,它会自动切换为原始的 Pandas 执行。也就是说,使用上与原始的 Pandas 是完全一致的。
2023-06-29 17:11:54
1127
原创 通过一个简单的例子理解 Python 中的多线程
命令,会退出 Python 终端,但是循环还是会继续运行,查看任务管理器会发现 Python 进程依然存在。函数已经在一个单独的线程里面跑起来了,这时候 Python 解释器还可以在新的线程里面处理新的操作,比如算一下 1+1 啥的。只要进程没结束,这个线程也会一直运行,直到完成。例如在机器学习中,我们可能需要对数据执行不同的特征工程,应用于不同的模型,来对比性能。就可以通过多个线程来并行地执行,加快处理速度。可以直接在命令行终端运行这一段代码,就会开始了一个线程,它属于 Python 这个进程。
2023-06-29 17:07:54
108
原创 介绍几款在线编程工具(Python)
这个是数据科学社区用的比较多的平台,相对来说也比较成熟,功能比较完善,现阶段有比较慷慨的免费计算资源。(1) 创建一个(或已存在的)Github 仓库,里面包含你要共享或在线编辑的 notebook(2) 在浏览器打开以下网址:对应上图仓库的链接就是(3) 等待片刻就在服务器搭建好一个虚拟环境,并加载出 Jupyter 的页面(4) 第一次加载会慢一点,后面的操作就很流畅了。然后就像在本地服务使用 Jupyter Notebook 一样该干啥干啥就可以了。
2023-06-29 17:06:47
1657
原创 SQL 复习 01
简单复习了一下 SQL,记录一下速查表例子示例表:/* Employee */+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80000 | 2 || 3 | Sam |.
2022-01-15 12:11:25
486
原创 关于 Outlook 上莫名其妙的未读邮件
今天发现 Outlook 上莫名其妙多了两封未读邮件,但是收信箱里面明明全部已读了。搜了很多文章,都没有说清楚,搞得很复杂又解决不了问题。让我来写一个。原因:其实是一个很简单的一个问题,我称之为**“薛定谔的邮件”**,就是本地的内容和服务器中的不同导致的。具体原因就是你在查看某封邮件的时候,它切换为已读了,但是因为某种错误,没有将这个状态同步到服务器。所以当再次从服务器请求信息的时候,它在服务器上还是未读的,于是显示出未读邮件。但是你本地的是已读的,所以就出现这个灵异现象。解决:右键出现灵异现象
2020-05-19 03:24:02
5325
原创 深圳数据分析职位 招聘数据研究
一、数据获取以下为数据获取的完整代码,直接使用 get 请求数据,网站只需验证正确的 User-Agent。同时在 JobSpider 中初步解析整理数据,使用 BeautifulSoup + CSS 解析数据,使用正则表达式整理数据完善字段。具体的解析逻辑参考网页源码。# -*- coding: utf-8 -*-"""爬取 51Job-深圳-数据分析 招聘职位数据"""impor...
2020-05-08 01:47:34
645
原创 2019-nCoV 疫情传播模拟
武汉必胜!中国必胜!2020 新年之际,新型冠状病毒疫情在全国各地陆续出现,尤其武汉人民深受其害。为了支援疫区,同时打发被“软禁”在家的时光,决定研究一下目前的疫情,看看是否能发现一些有用的结论。在网上浏览一下,对于疫情数据的可视化以及建模分析,目前已经做了大量的工作,并且已经建立实时监控疫情的系统。于是准备从另一个方面入手,从本质上模拟疫情的传播,并对比理想状态下的传播于实际情况的区别。...
2020-03-08 17:57:29
1424
4
原创 Jekyll 学习笔记
简介Jekyll是一个简单的博客形态的静态站点的生产机器。它有一个模版目录,包含原始的文本格式文档,通过一个转换器(如Markdown)和Liquid渲染器转化成一个完整的可发布的静态网站。安装配置# windows下,首先安装ruby、下载rubygems压缩文件、然后运行其根目录中的setup.rbruby setup.rb# 使用gem安装jekyll,如出现错误按提示安装依赖g...
2020-03-08 17:43:41
391
原创 链家二手房价分析
深圳二手房价分析—— 纵得广厦千万间,难使天下寒士俱欢颜。一、问题背景最近,深圳的一个新楼盘深业中城开盘,备案价高达 13.1 万的豪宅项目,光认筹就需要缴纳 500 万的诚意金,在别的城市已经可以全款购买一套房了。单看新盘的价格,深圳早几年就已经超越北京稳居榜首了。但是最近中国房价行情网的最新数据显示,10 月份深圳二手房均价为 65,364 元/㎡,环比增长 1.07%,意味着深圳的二手...
2019-12-05 01:07:51
1632
2
原创 Ubuntu卡在登陆界面,无限循环
配置了一整天的系统,还以为就这样挂了,有惊无险,写个博客压压惊。参考:https://blog.csdn.net/JJuStudent/article/details/763585981.基本上按上文的操作,但是发现 sudo su 或者 /bin/su 又或者 /bin/sudo su 都无法获取root权限(这里疯狂慌张xjb乱试了各种命令)2.然后直接使用sudo命令,报错,但是显...
2019-05-21 23:42:35
4427
2
原创 关于卷积神经网络的学习记录
两篇相关文章:ResNet残差网络https://mp.weixin.qq.com/s?__biz=MzU0ODczMTEwOQ==&mid=2247492986&idx=1&sn=db87aa68405c0ebe57f6fd0b8a05c2ae&chksm=fbb804f0cccf8de6c4bae5deaf993d51a5a262dd2dfa054d84...
2019-05-06 22:31:33
207
原创 eclipse安装颜色主题插件
想给eclipse换个深色的主题,但是网上的方法都是手动配置。麻烦不说,效果很难调到合适,强迫症表示怎么看都不顺眼。最后找到一个方法,给eclipse安装主题插件。https://www.imooc.com/article/6401就是在install new software选项用以下链接安装:http://eclipse-color-theme.github.io/update/...
2019-04-26 23:22:12
659
原创 python 文件指针及文件覆盖
转载一篇博客https://www.cnblogs.com/quqinchao/p/qqczhizhen.html
2019-01-28 01:46:21
198
原创 关于from aip import AipOcr报错
最近使用百度AI的文字识别接口,入了个大坑。。。>from aip import AipOcr>...>ERROR:no module named 'ocr'>...原因应该是,aip和baidu-aip根本不是同一个包,但是你要import的时候,都是使用:import aip也不知道自己有没有理解错,反正把aip卸载了,再pip install baidu...
2019-01-17 12:12:35
19132
11
原创 python-关于报错cannot import *** from pyecharts的问题解决
可以尝试先卸载,然后换个镜像重新安装:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyecharts重装完再imoprt pyecharts可能出现no module named 'pyecharts_snapshot’的报错:这时同样安装上面的方法安装pyecharts_snapshot即可:pip install...
2018-12-16 00:55:44
32533
10
原创 关于反爬虫的破解
https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653557994&idx=3&sn=b2d54ab8e4c97102e5a3884b9b7fae27&chksm=806e3a57b719b3419c6bb65c41d84ed59bba97ed99edd1abf460490ba4a602e3904ab3...
2018-12-15 21:37:53
319
原创 在爬虫中解析网页的多种方法
https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653557681&idx=1&sn=5ba56c015b189505eeb8fadfc7641d92&chksm=806e3d0cb719b41aff6f53c7952eaaa42824e956d234e81a1f4744264a6b3f64cfefff...
2018-12-15 19:52:11
2360
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人