旋转小马-CSDN博客

原创 XGBoost完整学习指南：从数据清洗到模型调参

首先，我们生成一个包含10000条记录的信用卡欺诈检测数据集，这是一个典型的二分类问题。数据清洗是机器学习项目中最关键的步骤之一，直接影响模型性能。

2025-10-24 21:33:14 267

原创 sql学习笔记（四）

今天看到一个sql题，“近30天，******”，这里需要用到一个函数，date_add，其作用是在指定日期基础上添加一个时间间隔。unit：时间单位（如day，month，year，hour等）。date：原始日期（如'2025-04-28'或字段名）。value：要添加的数值（正数为未来，负数为过去）。

2025-04-28 17:01:07 432

问题：编写解决方案，找出与之前（昨天的）日期相比温度更高的所有日期的 id。2. 此时需要一个日期比较函数datediff()来找出相差一天的日期。1. 先把表与自身进行关联，这样就可以进行横向的比较。今天在力扣看到一个sql题，比较有意思，分享一下。没有具有相同 recordDate 的不同行。原题目：197. 上升的温度。id 是该表具有唯一值的列。该表包含特定日期的温度信息。现有表：weather。

2025-03-04 14:32:51 270

原创 sql学习笔记（二）

'on'是最常用的连接条件关键字，用于显示指定连接的字段。'using'是一种简化的连接条件关键字，用于连接两个表中国同名的字段。如果你需要连接两个表中同名的字段，并且希望结果中只显示一次该字段，使用'using'更简洁。如果你需要连接不同名的字段，或者需要更复杂的连接条件，使用'on'。'on'是更通用的选择，而'using'是一种简化的语法，适用于特定场景。

2025-03-03 17:12:58 657

原创 sql学习笔记（一）

length()函数用于计算字符串的字节长度。

2025-02-28 17:55:54 1849

原创一个强大的LLM微调工具 LLaMa-Factory：手把手教你从零微调大模型

LLaMa-Factory项目定位是微调工具，目标是整合当前主流的各种高效训练微调技术，适配市场主流的开源模型，形成一个功能丰富，适配性好的训练框架。本次记录基于自身使用llama-factory，简单记录从环境部署到训练及推理的过程。

2025-01-03 16:46:08 2959

原创 python-字符串中大写字母转小写，小写字母转大写

但是如果想把字符串中的大写字母转成小写，小写字母转成大写，上面两个函数就不再适用了，如下代码，函数ord是用于返回一个字符的unicode编码，大写字母A-Z比小写字母a-z小32，利用大小写字母的unicode编码进行转换，chr函数则是把相应的unicode编码转换为字符。

2024-11-08 19:32:41 1194

原创 python-斐波那契数列

这个数列的特点是，除了第一个和第二个数外，任何一个数都是前两个数的和。在计算机科学中，斐波那契数列用于算法设计，如斐波那契堆（Fibonacci heap）是一种高效的数据结构，用于图算法和优先队列。斐波那契数列因其独特的性质和广泛的应用而闻名，它不仅是数学上的一个有趣现象，也是自然界和人类文化中的一个重要模式。斐波那契数列在自然界中频繁出现，例如在植物的叶序和花的排列中，以及在动物的繁殖模式中。F(n) = F(n-1) + F(n-2)，对于 n>=2，其中 F(n) 表示数列的第 n 项。

2024-11-07 16:49:57 850

原创字符串的几种拼接方式

1. 使用str.join()方法进行拼接字符串。2. 使用格式化字符串进行拼接。4. 使用'+'符号拼接。

2024-11-04 15:39:38 504

原创 hivesql学习大纲

DML（数据操作语言）：INSERT, SELECT, UPDATE, DELETE等。- DDL（数据定义语言）：CREATE, DROP, ALTER, TRUNCATE等。- DCL（数据控制语言）：GRANT, REVOKE等。- 记录个人项目中使用HiveSQL的经验。- 描述几个实际的Hive应用案例。- 分析案例中的HiveSQL使用。- 收集和回答学习过程中的常见问题。- 常用HiveSQL命令和示例。- Hive与传统数据库的区别。- 简述Hive的用途和特点。

2024-10-24 23:58:37 695

原创 pymysql.err.DataError:1366, “Incorrect string value“问题解决

报错1366，主要是处理emoji时，编码问题造成的，在mysql8里面，字符集默认就是utf8mb4，已经支持emoji，python3默认就是utf8，utf8mb4时utf8的超集，mb4是most bytes 4的意思，专门用来兼容四字节的unicode，处理emoji时需要字符集支持unicode，utf8mb4是没问题的，但是uft8不可以。都修改完之后，再运行程序，问题解决。通过网上资料查询，最终解决了问题。

2023-07-28 18:00:05 4827

原创 MacBookPro 安装cx_Oracle，并配置环境

本机系统：macOS Monterey 版本 12.5Anaconda版本：Anaconda3-2022.10-MacOSX-x86_64.pkgpython版本：3.9.13mac下安装cx_Oracle比较简单，直接打开终端。

2022-11-22 10:26:50 2838

原创应用时间序列--前序

时间序列分析，正是根据客观事物发展的连续规律性,运用过去的历史数据，通过统计分析,进一步推测未来的发展趋势。根据观察时间的不同，时间序列中的时间可以是年份、季度、月份或其他任何时间形式。从这些影响因素发生作用的大小和方向变化的时间特性来看,这些因素造成的时间序列数据的变动分为四种类型。(1)、趋势性：某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向,但变动幅度可能不相等。1、时间序列分析法是根据过去的变化趋势预测未来的发展,它的前提是假定事物的过去延续到未来。

2022-10-24 23:44:42 829

原创 MySQL数据库中时间戳及时间戳的格式转换

结果如下，需注意的是：Times列为我数据库中的时间戳数据，可看到其为13位数，并且为字符串格式，在使用from_unixtime()函数时，需把其转换为数字，并且改为10位数，才能进行转换，date1默认的日期格式便是date2中指定输出的日期格式；时间戳是指格林威治时间自1970年1月1日（00:00:00 GMT）至当前时间的总秒数。date_format：不填写的话，默认为 "%Y-%m-%d %H:%i:%s"格式。常见有10位（单位：秒）和13位（单位：毫秒）。

2022-09-07 14:33:04 48946

原创 python学习笔记之explode()函数

详情可查看官方文档：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html。函数作用：将类列表的每个元素转换为行，实现列转行的功能，可处理列表、元组、Series等类型。Step2：将被explode的列的元素，变为list like。Step1：构建测试数据。......

2022-08-26 14:16:18 7492 6

原创 sql日期格式转换

现数据库导入一批数据的日期格式为（01-1月 -19 06.44.44.000000000 下午）如图：为方便我们进行操作，需要把此日期格式进行转换：转换后效果如下：

2022-08-24 15:10:00 7339

原创 unable to extend temp segment by 2048 in tablespace DATA_ANALYSIS

unable to extend temp segment by 2048 in tablespace DATA_ANALYSIS

2022-08-24 15:08:46 461

原创 python中@staticmethod静态方法小解

背景开始看到python中staticmethod方法时也不是很理解，上手敲一敲发现带不带@staticmethod，没啥明显区别，就上网搜一搜资料，简单整理记录下。先看没有使用staticmethod时，要先实例化对象，才能调用其方法，否则便会像第二张图一样报错；再来看使用staticmethod方法时此时可以发现，方法run的参数并非是self参数，改成self参数后如下会报错，此时的run方法不能访问类的属性；小结python中@stati.

2022-05-24 17:41:39 1539 3

原创 Oracle中时间相减得到天、时、分等

背景：数据库中有两个字段如下：现在想通过这两个字段得到分钟数，通过观察两种日期格式为：'年月日时分秒'，我们需要先把字符串转换成日期格式，使用to_date函数，对应的字符串格式为'YYYYMMDDHH24MISS'，转换如下：此时把time_out和time_in都进行转换并相减，结果如下：select TIME_IN,TIME_OUT,(to_date(TIME_OUT,'YYYYMMDDHH24MISS')-to_date(TIME_IN,'YYYYMMDDHH24MIS

2022-05-04 11:55:31 17751

原创 dataframe直接写入数据库

背景：在用python做一些分析任务时，尤其是一些定时任务，经常需要把数据结果写入到数据库中，方便他人使用，以往经常使用的方法是遍历每条数据，然后插入到数据库中，现在记录另一种方式，"to_sql"，把dataframe直接存入数据库实现方式：对于mysql库import pymysql as psqfrom sqlalchemy import create_engine# username、passwd 数据库账号密码# 192.168.3.10 1540 数据库的ip和端

2022-04-20 10:05:12 5363

原创 python使用smtplib库实现自动发送邮件

需求场景：很多时候我们需要对服务器上的某些任务的运行状况进行预警，或者跑出结果来需要第一时间拿到结果，此时在可以链接外网的情况下，我们便可以利用python的smtplib库实现自动发送邮件。实现代码：#!/usr/bin/env python# -*- encoding: utf-8 -*-'''@File : email_test@Time : 2022/01/13 14:17:31@Author : Wang Yu'''import smtplibf

2022-01-13 15:11:17 923

原创 pycharm使用小技巧-插入代码/默认模板

每次用pycharm写代码的时候前面几行代码都要重复写，作为一名新生代民工，对于这种重复性工作当然是能省略就省略的了，未设置前，我们新建一python文件都是空白的，如下图而设置好之后的样子如下，新建之后便是我们想要的模板设置步骤如下，先找到Preferences，然后按照如下右图的步骤，在第三步的地方写上自己需要的内容便可。...

2022-01-06 01:00:24 1388 15

原创 python学习笔记之读取word文件库docx

前面记录了两篇python操作pdf的文章，今天整理下python操作word文档的库docx，我遇到的需求是提取word中的文字内容，并匹配一些特定字符串，接下来先安装：pip install docx # 经过测试，我直接安装docx，后续也能正常使用# 在网上查找资料的时候，看网上很多人写的是要安装 python-docxpip install python-docx所以当我们遇到问题是，第一种安装方式如果行不通的话，就按照第二种方式来，我们是以结果为导向，以解决问题为目标。接下来

2021-12-23 11:18:49 2105

原创记一次Oracle数据库去重数据，rowid,row_number(),partition by

问题描述因为周末几天的数据库出了点问题，在补充几天数据的时候，忘记更改了日期，导致补充到数据库的数据多了一些重复数据，如下图所示：解决办法经过资料查找，用到了rowid, row_number(), partition by,rowid是Oracle数据库特有的，是一串随机生成的字符串，用来表示特定的某一行，如下图，rid作为每一行的唯一id标识：此时再用row_number() 结合partition by 添加一列排序列，然后作为条件筛选rid，如下：select ..

2021-12-21 11:17:14 1436

原创 jupyter notebook 报错信息 ModuleNotFoundError: No module named jupyter_nbextensions_configurator

问题描述平台：windows 10专业版， anaconda3在启动jupyter notebook时，有报错信息，如下：ModuleNotFoundError: No module named jupyter_nbextensions_configurator虽然，jupyter lab 打开还能继续用，但出现报错信息始终是个隐患，于是经过查找资料，找到了以下解决方案解决办法python -m pip install --user jupyter_contrib_nbexte..

2021-12-16 12:48:00 6832 4

原创 python读取json文件报错“AttributeError: ‘str‘ object has no attribute ‘read‘”

遇到问题：在使用python包json，load文件时，报错：AttributeError: 'str' object has no attribute 'read'import jsondata = json.load("社区图层_wgs84_修正街道ID.geojson",encoding='utf8')具体问题如下截图解决办法：import jsonwith open("社区图层_wgs84_修正街道ID.geojson",encoding='utf8') as f..

2021-12-15 14:06:55 5842

原创 python学习笔记之读取pdf文件库pdfminer（二）

上一节中介绍了抽取PDF文本及表格的库pdfplumber，今天介绍另外一个PDF解析库：pdfminer安装pip install pdfminer3k# 或者利用国内镜像源来获取pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pdfminer3k注意：python2中是pdfminer，python3中是pdfminer3k读取PDF文本在网上搜了一圈的资料，实现代码如下：from pdfminer.pdf

2021-12-10 16:45:50 4440

原创 python学习笔记之读取pdf文件库pdfplumber（一）

python现在处理word、Excel、pdf等文档有很多的库，今天学习一个处理pdf的库：pdfplumber，主要学习提取文本内容和表格。安装pip install pdfplumber提取文本 extract_text()import pdfplumber# 打开一PDF文档，比如打开《浪潮之巅》pdf = pdfplumber.open('浪潮之巅.pdf')# 提取第一页的本文内容text = pdf.pages[0].extract_text()print(tex

2021-12-07 14:56:21 3595 1

原创 python可视化之matplotlib散点图（二）

散点图的语法为plt.scatter()，其参数和折线图的参数设置基本一致import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号x = [1,2,3,4,5,6,7,8,9,10]y = [2,3,5,4,6,8,12,13,14,15]plt.figure(fi

2021-11-29 15:35:40 495

原创 python可视化之matplotlib折线图（一）

python可视化学习笔记之matplotlib，先从最基本的折线图开始学习记录。1、最基本的折现图import matplotlib.pyplot as plt# 数据x = [1,2,3,4,5,6,7,8,9,10]y = [2,3,5,4,6,8,12,13,14,15]plt.plot(x,y)plt.show()但平时在我们的使用过程中通常会调整图的各种格式，比如，颜色、线条形状、透明度、大小、标题等等，接下来对折线图的各种格式进行调整，翠花，上酸菜~2、设.

2021-11-28 20:57:15 2601

原创 python爬虫之以腾讯招聘为例，爬取动态页面

以腾讯招聘网站为例，打开网站，搜索“python”，返回页面如下：把鼠标光标放在我们要查询的岗位上，然后右键--->检查，点击network，然后刷新，其中XHR返回的便都是动态链接，其中不同于以往的网站，我们所要查找的数据不在response中，而是存放在preview中，如下图：此时再查看齐请求链接，链接较长，其中有很多的参数，具体的参数都存放在Query String Parameters中，如下：其中，timestamp为时间戳，10位表示秒（1970年1月1日 0时0..

2021-11-24 00:57:40 2136

原创 python爬虫之利用pyquery爬取当当网图书信息

初学爬虫，根据课程学习python爬虫，老规矩，先不管三七二十几，先敲了再说。需求：爬取图书的图片链接、图书的title信息、当前定价、评论数和评价星数共五部分信息。分析：打开当当，搜索python书籍，然后右键，检查网页元素，找到network，然后刷新整个页面，就会返回请求的页面数据，找到左边的红框内的请求链接，然后打开右边的response模块，检查下面返回的内容是否有我们需要的信息，发现没问题，就可以继续往下进行。寻找图片：把鼠标放在网页的图片上直接右键，然后...

2021-11-19 16:49:40 6201 1

原创 python学习笔记之内建函数 isinstance()

描述：isinstance()函数用来判断一个对象是否是一个已知的类型，类似于type()isinstance() 与 type() 的区别： type() 不会认为子类是一种父类类型，不考虑继承关系。 isinstance() 会认为子类是一种父类类型，考虑继承关系。判断两者类型是否相同，推荐使用isinstance() 。示例：a = 123isinstance(a,int)>>> Trueisinstance(a,st...

2021-11-11 17:48:06 691

原创一元线性回归-最小二乘法推导过程

设一元线性回归方程为，数据样本点为，要想使这n个样本点落在一元线性回归方程附近，不妨设误差为，使得没一个样本点落在一元线性回归方程上，因此有恒成立，所以回归直线应满足的条件是：实际值与回归估计值之间的误差平方和最小，即：此时令，原问题就转换成求解二元函数极小值问题，分别对求偏导：令上两式等于零，即最终求出两个数值，一元线性回归方程也就拟合出来了。...

2021-11-07 18:54:33 5836

原创 anaconda3 安装geopandas，以及依赖包shapely、gdal、pyproj、fiona

版本号：Windows 10专业版anaconda3 python 3.8.8开始时的报错信息没有保存下来，pip install 和conda install 都同样安装报错，好像是如下报错信息：conda install geopandasCollecting package metadata (current_repodata.json): doneSolving environment: failed with initial frozen solve. Retrying ..

2021-11-05 13:25:50 4618 15

原创 python实现一元线性回归详细步骤

#建模、预测和可视化# 导入相关包import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_split # 切分训练集和测试集的函数import matplotlibimport matplotlib.pyplot as pltmatplotlib.rcParams['font.sans-serif'] = ['Sim

2021-10-29 00:32:40 6068 2

原创 python学习笔记之-展平函数ravel和flatten及两者的区别

ravel()和flatten()是将多维数据展平为一维数据，功能相同，区别在于一个是复制操作，一个是引用操作。ravel()展平数据后，修改后面的数据会影响前面的数据，而flatten()展平数据后，不会影响前面的数据。代码如下：import numpy as npa = np.arange(15).reshape(3,5)a>>> array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10,

2021-10-27 15:44:06 5499 2

原创异常值&离群点检测算法---箱线图四分位检测

一、四分位距检测法介绍在数据处理的过程中，异常值的检测和处理是一个较小的分支，检测的方法也有很多种，本文只介绍其中一种：四分位距法，虽然常见但功能强大。这种方法是利用箱线图的四分位距（IQR）对异常值进行检测，也叫Tukey`s test。其提供了识别异常值的一个标准：异常值通常被定义为小于QL-1.5IQR 或QU+1.5IQR。QL：下四分位数，表示全部观察值中有四分之一的数据取值比它小； QU：上四分位数，表示全部观察值中有四分之一的数据取值比它大； IQR：四分位间距，是上四分位数.

2021-10-25 15:48:56 16240 5

原创 python pd.read_html读取数据不完整

问题：有一个较大的表格数据存在了html中，打算用read_html直接取出来这部分数据，但后来发现read_html读取的数据不完整，后来检查html的table都没有任何问题解决办法：pd.read_html的默认解析器为 'lxml' ，添加参数flavor='bs4'便可解决...

2021-10-21 10:18:42 2037

原创 python取整的几种常见方式-向上取整、向下取整、四舍五入取整、int()取整、“//”整除取整

python使用中会遇到几种取整的情况，现在整理一下，以供以后学习参考。一、向上取整，所有小数都是向着数值更大的方向取整，不论正负。math.ceil()import mathmath.ceil(0.4)>>> 1math.ceil(1.8)>>> 2math.ceil(-1.8)>>> -1二、向下取整，所有小数都是向着数值更小的方向取整，不论正负。math.floor()math.floor(1.8)

2021-10-15 00:34:37 29638 2

SMOTE：synthetic minority over-sampling technique.pdf

机器学习---中文识别.pdf

python如何写接口