自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据分析笔记

数据分析 / 算法 / 数据挖掘

  • 博客(22)
  • 收藏
  • 关注

原创 处理Excel的Python算法_6_:xlwings与其他模块交互

xlwings 与pandas交互import xlwings as xwimport pandas as pdapp = xw.App(visible=False)workbook = app.books.add()worksheet = workbook.sheets.add('新工作表')df = pd.DataFrame([[1, 2], [3, 4]], columns=['a', 'b'])worksheet.range('A1').value = dfworkbook.save

2021-02-01 10:29:47 228

原创 处理Excel的Python算法_5_:数据可视化模块——Matplotlib(简单举例)

import matplotlib.pyplot as pltx=[1, 2, 3, 4, 5]y=[2, 4, 6, 8, 10]plt.plot(x, y)plt.show()x = [1, 2, 3, 4, 5, 6]y = [6, 5, 4, 3, 2, 1]plt.bar(x, y)plt.show()

2021-02-01 10:18:05 159

原创 处理Excel的Python算法_4.2_:数组导入和整理模块——Panda(基本用法.代码)

创建方式import pandas as pd# 创建Seriess = pd.Series(['丁一', '王二', '张三'])print("pd.Series(['丁一', '王二', '张三'])",s,sep="\n")# 简单创建DataFramea = pd.DataFrame([[1, 2], [3, 4], [5, 6]])print("pd.DataFrame([[1, 2], [3, 4], [5, 6]])",a,sep="\n")# 简单创建DataFrame

2021-01-26 18:27:52 207

原创 处理Excel的Python算法_4.1_:数组导入和整理模块——Panda(快速入门)

索引官方文档QuickStartPandas概览快速入门基础用法数据结构简介与其他工具比较官方文档中文官网:https://www.pypandas.cnQuickStartPandas概览快速入门基础用法数据结构简介与其他工具比较

2021-01-11 10:42:19 311

原创 常用脚本:ip地址地理位置查询(LocationQueryFunctions.py)

说明API详情网址:https://ip-api.com/docs/api:json封装了请求超时和次数控制,请求结果整理等方式。代码# -*- coding: utf-8 -*-''' @File : LocationQueryFunction.py @Descriptions: IP地址地理位置解析函数 @Author : Songyou Han @Created on : 2020/10/21 17:07 '''import Include.Functions.Functi

2020-12-30 16:55:55 248

原创 常用脚本:request请求结果处理函数(GetRequestsFunctions.py)

说明封装requests请求函数,包括异常处理及超时超次设置。代码# -*- coding: utf-8 -*-''' @Time : 2020/10/21 10:35 @Author : Songyou Han @File : UrlRequestsFunctions.py @Description : url请求及数据提取函数 @Software: PyCharm'''import requestsimport timeimport jsonclass GetRe

2020-12-30 15:18:14 269

原创 常用脚本:数据库使用函数(DatabaseFunctions.py)

说明将数据库连接传入封装的数据库执行函数类,封装异常处理及数据整理过程,以字典列表形式返回结果,方便索引和使用代码参数说明:class databaseConn:(conn,cursor,databasename)# -*- coding: utf-8 -*-''' @File : DatabaseFunctions.py @Descriptions: 数据库自封装函数: ⚪执行SQL语句(返回状态值): execute_sql(databaseConn, sql

2020-12-30 14:20:48 197

原创 常用脚本:快速连接数据库工具(DatabaseClass.py)

说明公司的常用数据库,为了避免避免重复书写跳板机连入方式,以及开启关闭等脚本,编写成快捷的连接类。脚本# 常用数据库连接类class xxxxDatabaseConn: # 初始化并开启数据库连接 def __init__(self, choice_host:str, database='undefined'): print("初始化:xxxxDatabaseConn:对象 '{host}.{databasename}'".format(host = choice_h

2020-12-30 11:52:01 237

原创 处理Excel的Python算法_3.2_:数组计算的数学模块——NumPy(下)

索引外形操纵改变阵列形状堆叠在一起的不同阵列复制和视图函数和方法概述外形操纵改变阵列形状import numpy as nprg = np.random.default_rng(1)# 准备一个数组a = np.floor(10*rg.random((3,4)))#array([[3., 7., 3., 4.],# [1., 4., 2., 2.],# [7., 2., 4., 9.]])print(a.shape) # (3, 4)# 以下三个命令均返回修

2020-12-10 12:08:12 295 1

原创 处理Excel的Python算法_3.1_:数组计算的数学模块——NumPy(上)

索引NumPy官方文档Quickstart基本对象--nArray创建Array的几种方式打印Array基本操作NumPy官方文档官方网站:https://numpy.org/Quickstart基本对象–nArrayimport numpy as npa = np.arange(15).reshape(3, 5)print("对象",a.data)print("对象类型",type(a))print("对象数据:",a)print("维度:",a.ndim)print("元素类

2020-12-09 14:07:38 208 1

原创 处理Excel的Python算法_2_:批量处理Excel文件的模块——xlwings

索引xlwings官方文档Quickstart1、脚本编写:通过Python与Excel自动化/交互创建excel工作簿实例同一文件多个实例创建sheet实例读写sheet文档2、宏:从Excel调用Python3. UDF:用户定义的功能(仅Windows)xlwings官方文档官方网站:https://www.xlwings.org/proQuickstart1、脚本编写:通过Python与Excel自动化/交互创建excel工作簿实例import xlwings as xwwb = x

2020-12-07 16:25:44 460 1

原创 处理Excel的Python算法_1_:处理文件和文件夹的模块

索引获取当前文件路径列出指定路径下的文件夹包含的文件和子文件夹名称分离文件主名和扩展名重命名文件和文件夹获取当前文件路径import ospath = os.getcwd()print(path)列出指定路径下的文件夹包含的文件和子文件夹名称import ospath = 'D:\\'file_list = os.listdir(path)print(file_list)分离文件主名和扩展名import ospath = 'example.xlsx'separate = os.

2020-12-07 15:05:52 91

原创 2020-11-11 什么是用户行为数据?

如果你不能衡量一件事情,你就无法改进/增长它。什么是用户行为数据?用户行为数据的基本要素用户行为数据的五个基本要素含义WHEN时间WHERE地点WHO人物HOW交互WHAT交互内容也就是说用户在什么时间、什么地点以某种交互方式进行了某种操作。数据的两大来源两大基本数据来源数据属性客户端“过程型”服务端“结果型”服务端和日志数据可以让我看到用户的最终行为结果,但对发生结果的过程进行追溯和分析往往更

2020-11-11 11:37:36 1310

原创 OperationalError: (2013, ‘Lost connection to MySQL server during query‘)

索引错误原因解决方法错误原因MySQL持久化链接保持时间为8小时(28800秒),过期后断开连。如果数据库没有新建连接,则会报此错。解决方法class DataBase(): """数据库类""" def __init__(self, host='localhost', user='root', pw='password', db='test'): self.con = pymysql.connect(host, user, pw, db) self

2020-09-25 10:32:46 403

原创 数据清洗:提取爬虫文本中的电话号码(Python)

步骤索引效果展示注意事项代码效果展示原始数据清洗数据注意事项每个号码前面带‘+’,而原始文本中有些号码带Fax前缀,为传真号码,需要剔除掉剔除方法首先将文本全部转换为小写,再将’ fax’(注意fax前有空格)转换成’ Fax’,则只要遇到大写F就说明紧接着的号码是传真号码。接下来我们设置一个传真标志FaxFlg,默认值:0,遍历所有字符,一旦遇到了’F’,就将标志打开,表示下一个遇到的‘+’后面的号码我们需要舍弃掉,舍弃后又重新见FaxFlg设为0,继续遍历。代码#

2020-08-25 15:48:05 1795

原创 递归查询:资金源头追溯(Python+SQL)

步骤索引概述代码概述总的来说就是从某一笔交易出发,递归查询资金流出方的资金来源,知道找到源头为止。代码# -*- coding: utf-8 -*-"""Created on Sat Aug 15 16:09:34 2020@author: Songyou Han"""import Tool_Wayki_Database as wkdb #个人工具箱:通过文字指令快速连接特定的数据库import Tool_Sql_List #个人工具箱:SQL仓库,存放常

2020-08-15 19:23:04 1162

原创 通过IP地址绘制信息地图(Python+PowerBI+MapBox)

步骤索引①效果展示②获取IP地址解析地理信息Python代码③可视化SQL数据源处理Powerbi地图呈现①效果展示②获取IP地址解析地理信息Python代码在这里插入代码片③可视化SQL数据源处理在这里插入代码片Powerbi地图呈现...

2020-08-07 15:39:42 1482

原创 循环统计截至每日历史累计值(Python)

步骤索引SQL准备(计算截至某个日期的数据指标)将SQL嵌入Python代码的循环模式当中SQL准备(计算截至某个日期的数据指标)将日期设定为date <= DATE_FORMAT(DATE_SUB(CURDATE(),INTERVAL %s DAY),’%%Y-%%m-%%d’)即可通过循环修改 %s 实现日期的变更,达到循环统计每一天历史累计值的效果SELECT date ,sum(if(op_type = '行为B',coin_amount,0)) as loan_XXX

2020-08-01 12:14:52 1207

原创 爬虫:爬取以太坊区块链浏览器数据

爬取网址 :https://eth.btc.com/home首页(输入代币代号)数据页(点击翻页测试请求)获取到Header URLRequest URL: https://explorer-web.api.btc.com/v1/eth/tokentxns/0x4f878c0852722b0976a955d68b376e4cd4ae99e5?page=2&size=10Request Method: GETStatus Code: 200Remote Address: 18.141

2020-07-30 17:22:11 5443 1

原创 PUTTY:如何使用PUTTY通过跳板机连接Mysql数据库

方法步骤问题:如何使用PUTTY通过私钥从跳板机连接远程Mysql数据库Session ——>填写跳板机地址/端口SSH--Auth:填写私钥本地存放地址SSH--Tunnels:填写通道信息问题:如何使用PUTTY通过私钥从跳板机连接远程Mysql数据库Session ——>填写跳板机地址/端口SSH–Auth:填写私钥本地存放地址SSH–Tunnels:填写通道信息### Connection : 填写定时发送空包时间,用于保持连接...

2020-07-03 19:11:50 2375 1

转载 Powerbi:提高powerbi运行速度 [转载]

From:https://www.sohu.com/a/307969611_584557PowerBI是一个强大的工具,它的大数据处理能力、丰富的可视化对象、便捷的交互体验正在改变越来越多的人查看数据的方式。但同时也有很多人抱怨PowerBI运行速度太慢:打开慢、刷新慢、响应慢,你在使用过程中是不是也有此体会呢?本文就来谈谈如何高效的使用PowerBI,这里的高效,是指当你有一个想法并告诉PowerBI,它能快速响应你的操作,得出期望的结果,而不是漫长的等待。当然导致PowerBI运行速度慢的原因有

2020-06-28 16:31:24 7904 1

原创 KETTLE:数据导入中文乱码解决办法

1、编辑数据库连接2、设置字符集参数characterEncoding = UTF-83、同时需要设置数据库中字段为相应格式4、启动转换

2020-05-18 19:51:14 2524

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除