- 博客(11)
- 收藏
- 关注
原创 用pyecharts做图表大屏展示
效果是这个样子,就是一个交互的图表集成展示先把你自己画的所有图片添到里page() ,Page记得要导入一下和Bar,Pie那些pyecharts.charts类里。(画图的代码就省略了太多了,我这里就是举个例子)。把我add的这些图换成你自己。page = (Page().add(pie1).add(pie2).add(pie3).add(pie4).add(pie5).add(pie6) .add(pie7).add(pie8).add(pie9).add(pie10).add(p
2020-06-04 17:20:52
4044
原创 对pandas的dataframe自定义颜色显示
原始表是这样,一堆数字视觉表达能力很差quantity_year.style.background_gradient(cmap='gray_r')按照大小对其进行不同颜色的填充,视觉表达能力强了很多。也可以自定义颜色填充,比如我这里对大于平均值的进行颜色填充。quantity_year.style.applymap(lambda v : 'background-color: %s' %'#FFCCFF' if v>quantity
2020-05-19 17:00:10
10635
4
原创 喝星巴克的频率是否与性别有关?——(卡方检验)
1.数据集介绍数据集是kaggle上的公开数据集,是从星巴克的调查问卷统计而来,其中包括了1. Your Gender 2. Your Age 3. Are you currently…? 4. What is your annual income? 5. How often do you visit Starbucks? 等等 21个问题。导入数据集,并且查看缺失值import numpy...
2020-05-06 17:50:06
980
原创 read_csv里quoting参数
今天遇到个小坑,发现csdn里没有关于这个参数的问题,所以在这里记录一下。当你用read_csv读文件的时候,如果文本里包含英文双引号,直接读取会导致行数变少或是直接如下报错停止Error tokenizing data. C error: EOF inside string starting at row 1此时应该对read_csv设置参数控制csv中的引号常量,设定quoting=3...
2020-03-21 14:38:11
4658
原创 决策树和随机森林的实现,可视化和优化方法
决策树原理决策树原理这篇文章讲的很详细。本文仅写代码实现。决策树决策树可视化从网站 https://ndownloader.figshare.com/files/5976036下载下来解压之后,用pd.read_csv读入data那个文件...
2020-03-20 18:16:14
5073
原创 过采样实现方法:SMOTE样本生成策略
SMOTE原理SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术.它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本...
2020-03-13 15:31:56
3364
2
原创 Kaggle经典案例—信用卡诈骗检测的完整流程(学习笔记)
首先先看数据import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinedata = pd.read_csv("creditcard.csv")data.head()data.shape好的,它长这个样子。大致解释一下V1-V28都是一系列的指标(具体是什么不用知道)...
2020-03-12 18:14:13
4535
1
原创 什么是梯度下降?
梯度下降为什么需要引入梯度下降?通过之前通过线性回归已经求出了目标函数(现在需要使得目标函数越小越好)这里又求解过程,总之现在目标函数长这个样子:1. 为什么要除了m这个样本总数呢?因为假设10万份样本和5万份样本,显而易见10万份的样本损失一定更大,而在这里我们是为了得到一个与样本数量无关的泛值。2. 那么为什么要引入梯度下降呢?直接求偏导数找到极值点不就可以了吗?因为求偏导的过程...
2020-03-06 14:42:18
1061
原创 简单易懂的线性回归基础和从极大似然估计推导最小二乘法
首先假设有这样一组数据X1X2…Ya1b1…c1a2b2…c2…………找到一条合适的线来拟合数据点,可以根据给的X预测Y值设置权重参数假设每个X都有一个对应的θ为它的权重参数,可得:Y=Θ0+Θ1X1+Θ2X2+...Y=\Theta_0+\Theta_1X_1+\Theta_2X_2+...Y=Θ0+Θ1X1+Θ2X2...
2020-03-04 17:43:06
2346
5
原创 导出MySQL数据与数据备份
导出MySQL数据与数据备份数据的导出例如导出整张表mysql>select * from City into outfile ' /tmp/city.txt' fields by ', ';#不指定的情况下使用制表符分隔#表示将City表中的内容导出到tmp路径下的city.txt中,同理也可以按条件导出select * from City into outfile '/tmp...
2019-12-11 23:58:57
244
原创 MySQL下创建多个登陆路径
Linux下给MySQL创建多个登陆路径普通登录到MySQL的方式//mysql -uuser -p弊端1.每次需要手动输入用户名和密码,不方便2.不安全,当你将密码输入到语句中使用 fc -l 可以将你的输入密码明文查看到命令行引用登陆路径的方式登录MySQL首先需要创建登陆路径可以不加–login-pash,不加默认使用[client]的登陆路径,–host缺省127.0...
2019-11-21 10:58:31
269
空空如也
Flink1.17的webUI显示kafkaSource的Records Sent会翻倍
2024-03-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人