自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (5)
  • 收藏
  • 关注

原创 pymysql.err.DataError:1366, “Incorrect string value“问题解决

报错1366,主要是处理emoji时,编码问题造成的,在mysql8里面,字符集默认就是utf8mb4,已经支持emoji,python3默认就是utf8,utf8mb4时utf8的超集,mb4是most bytes 4的意思,专门用来兼容四字节的unicode,处理emoji时需要字符集支持unicode,utf8mb4是没问题的,但是uft8不可以。都修改完之后,再运行程序,问题解决。通过网上资料查询,最终解决了问题。

2023-07-28 18:00:05 3076

原创 MacBookPro 安装cx_Oracle,并配置环境

本机系统:macOS Monterey 版本 12.5Anaconda版本:Anaconda3-2022.10-MacOSX-x86_64.pkgpython版本:3.9.13mac下安装cx_Oracle比较简单,直接打开终端。

2022-11-22 10:26:50 2075 1

原创 应用时间序列--前序

时间序列分析,正是根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。根据观察时间的不同,时间序列中的时间可以是年份、季度、月份或其他任何时间形式。从这些影响因素发生作用的大小和方向变化的时间特性来看,这些因素造成的时间序列数据的变动分为四种类型。(1)、趋势性:某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向,但变动幅度可能不相等。1、时间序列分析法是根据过去的变化趋势预测未来的发展,它的前提是假定事物的过去延续到未来。

2022-10-24 23:44:42 590

原创 MySQL数据库中时间戳及时间戳的格式转换

结果如下,需注意的是:Times列为我数据库中的时间戳数据,可看到其为13位数,并且为字符串格式,在使用from_unixtime()函数时,需把其转换为数字,并且改为10位数,才能进行转换,date1默认的日期格式便是date2中指定输出的日期格式;时间戳是指格林威治时间自1970年1月1日(00:00:00 GMT)至当前时间的总秒数。date_format:不填写的话,默认为 "%Y-%m-%d %H:%i:%s"格式。常见有10位(单位:秒)和13位(单位:毫秒)。

2022-09-07 14:33:04 44967

原创 python学习笔记之explode()函数

详情可查看官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html。函数作用:将类列表的每个元素转换为行,实现列转行的功能,可处理列表、元组、Series等类型。Step2:将被explode的列的元素,变为list like。Step1:构建测试数据。......

2022-08-26 14:16:18 4812 3

原创 sql日期格式转换

现数据库导入一批数据的日期格式为(01-1月 -19 06.44.44.000000000 下午)如图:为方便我们进行操作,需要把此日期格式进行转换:转换后效果如下:

2022-08-24 15:10:00 6253

原创 unable to extend temp segment by 2048 in tablespace DATA_ANALYSIS

unable to extend temp segment by 2048 in tablespace DATA_ANALYSIS

2022-08-24 15:08:46 305

原创 python中@staticmethod静态方法小解

背景开始看到python中staticmethod方法时也不是很理解,上手敲一敲发现带不带@staticmethod,没啥明显区别,就上网搜一搜资料,简单整理记录下。先看没有使用staticmethod时,要先实例化对象,才能调用其方法,否则便会像第二张图一样报错;再来看使用staticmethod方法时此时可以发现,方法run的参数并非是self参数,改成self参数后如下会报错,此时的run方法不能访问类的属性;小结python中@stati.

2022-05-24 17:41:39 1038 3

原创 Oracle中时间相减得到天、时、分等

背景:数据库中有两个字段如下:现在想通过这两个字段得到分钟数,通过观察两种日期格式为:'年月日时分秒',我们需要先把字符串转换成日期格式,使用to_date函数,对应的字符串格式为'YYYYMMDDHH24MISS',转换如下:此时把time_out和time_in都进行转换并相减,结果如下:select TIME_IN,TIME_OUT,(to_date(TIME_OUT,'YYYYMMDDHH24MISS')-to_date(TIME_IN,'YYYYMMDDHH24MIS

2022-05-04 11:55:31 14540

原创 dataframe直接写入数据库

背景:在用python做一些分析任务时,尤其是一些定时任务,经常需要把数据结果写入到数据库中,方便他人使用,以往经常使用的方法是遍历每条数据,然后插入到数据库中,现在记录另一种方式,"to_sql",把dataframe直接存入数据库实现方式:对于mysql库import pymysql as psqfrom sqlalchemy import create_engine# username、passwd 数据库账号密码# 192.168.3.10 1540 数据库的ip和端

2022-04-20 10:05:12 5070

原创 python使用smtplib库实现自动发送邮件

需求场景:很多时候我们需要对服务器上的某些任务的运行状况进行预警,或者跑出结果来需要第一时间拿到结果,此时在可以链接外网的情况下,我们便可以利用python的smtplib库实现自动发送邮件。实现代码:#!/usr/bin/env python# -*- encoding: utf-8 -*-'''@File : email_test@Time : 2022/01/13 14:17:31@Author : Wang Yu'''import smtplibf

2022-01-13 15:11:17 630

原创 pycharm使用小技巧-插入代码/默认模板

每次用pycharm写代码的时候前面几行代码都要重复写,作为一名新生代民工,对于这种重复性工作当然是能省略就省略的了,未设置前,我们新建一python文件都是空白的,如下图而设置好之后的样子如下,新建之后便是我们想要的模板设置步骤如下,先找到Preferences,然后按照如下右图的步骤,在第三步的地方写上自己需要的内容便可。...

2022-01-06 01:00:24 1087 15

原创 python学习笔记之读取word文件库docx

前面记录了两篇python操作pdf的文章,今天整理下python操作word文档的库docx,我遇到的需求是提取word中的文字内容,并匹配一些特定字符串,接下来先安装:pip install docx # 经过测试,我直接安装docx,后续也能正常使用# 在网上查找资料的时候,看网上很多人写的是要安装 python-docxpip install python-docx所以当我们遇到问题是,第一种安装方式如果行不通的话,就按照第二种方式来,我们是以结果为导向,以解决问题为目标。接下来

2021-12-23 11:18:49 1320

原创 记一次Oracle数据库去重数据,rowid,row_number(),partition by

问题描述因为周末几天的数据库出了点问题,在补充几天数据的时候,忘记更改了日期,导致补充到数据库的数据多了一些重复数据,如下图所示:解决办法经过资料查找,用到了rowid, row_number(), partition by,rowid是Oracle数据库特有的,是一串随机生成的字符串,用来表示特定的某一行,如下图,rid作为每一行的唯一id标识:此时再用row_number() 结合partition by 添加一列排序列,然后作为条件筛选rid,如下:select ..

2021-12-21 11:17:14 1147

原创 jupyter notebook 报错信息 ModuleNotFoundError: No module named jupyter_nbextensions_configurator

问题描述平台:windows 10专业版, anaconda3在启动jupyter notebook时,有报错信息,如下:ModuleNotFoundError: No module named jupyter_nbextensions_configurator虽然,jupyter lab 打开还能继续用,但出现报错信息始终是个隐患,于是经过查找资料,找到了以下解决方案解决办法python -m pip install --user jupyter_contrib_nbexte..

2021-12-16 12:48:00 5700 4

原创 python读取json文件报错“AttributeError: ‘str‘ object has no attribute ‘read‘”

遇到问题:在使用python包json,load文件时,报错:AttributeError: 'str' object has no attribute 'read'import jsondata = json.load("社区图层_wgs84_修正街道ID.geojson",encoding='utf8')具体问题如下截图解决办法:import jsonwith open("社区图层_wgs84_修正街道ID.geojson",encoding='utf8') as f..

2021-12-15 14:06:55 5440

原创 python学习笔记之读取pdf文件库pdfminer(二)

上一节中介绍了抽取PDF文本及表格的库pdfplumber,今天介绍另外一个PDF解析库:pdfminer安装pip install pdfminer3k# 或者利用国内镜像源来获取pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pdfminer3k注意:python2中是pdfminer,python3中是pdfminer3k读取PDF文本在网上搜了一圈的资料,实现代码如下:from pdfminer.pdf

2021-12-10 16:45:50 3894

原创 python学习笔记之读取pdf文件库pdfplumber(一)

python现在处理word、Excel、pdf等文档有很多的库,今天学习一个处理pdf的库:pdfplumber,主要学习提取文本内容和表格。安装pip install pdfplumber提取文本 extract_text()import pdfplumber# 打开一PDF文档,比如打开《浪潮之巅》pdf = pdfplumber.open('浪潮之巅.pdf')# 提取第一页的本文内容text = pdf.pages[0].extract_text()print(tex

2021-12-07 14:56:21 2639 1

原创 python可视化之matplotlib散点图(二)

散点图的语法为plt.scatter(),其参数和折线图的参数设置基本一致import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号x = [1,2,3,4,5,6,7,8,9,10]y = [2,3,5,4,6,8,12,13,14,15]plt.figure(fi

2021-11-29 15:35:40 337

原创 python可视化之matplotlib折线图(一)

python可视化学习笔记之matplotlib,先从最基本的折线图开始学习记录。1、最基本的折现图import matplotlib.pyplot as plt# 数据x = [1,2,3,4,5,6,7,8,9,10]y = [2,3,5,4,6,8,12,13,14,15]plt.plot(x,y)plt.show()但平时在我们的使用过程中通常会调整图的各种格式,比如,颜色、线条形状、透明度、大小、标题等等,接下来对折线图的各种格式进行调整,翠花,上酸菜~2、设.

2021-11-28 20:57:15 2194

原创 python爬虫之以腾讯招聘为例,爬取动态页面

以腾讯招聘网站为例,打开网站,搜索“python”,返回页面如下:把鼠标光标放在我们要查询的岗位上,然后右键--->检查,点击network,然后刷新,其中XHR返回的便都是动态链接,其中不同于以往的网站,我们所要查找的数据不在response中,而是存放在preview中,如下图:此时再查看齐请求链接,链接较长,其中有很多的参数,具体的参数都存放在Query String Parameters中,如下:其中,timestamp为时间戳,10位表示秒(1970年1月1日 0时0..

2021-11-24 00:57:40 1734

原创 python爬虫之利用pyquery爬取当当网图书信息

初学爬虫, 根据课程学习python爬虫,老规矩,先不管三七二十几,先敲了再说。需求:爬取图书的图片链接、图书的title信息、当前定价、评论数和评价星数共五部分信息。分析:打开当当,搜索python书籍,然后右键,检查网页元素,找到network,然后刷新整个页面,就会返回请求的页面数据,找到左边的红框内的请求链接,然后打开右边的response模块,检查下面返回的内容是否有我们需要的信息,发现没问题,就可以继续往下进行。寻找图片:把鼠标放在网页的图片上直接右键,然后...

2021-11-19 16:49:40 5226 1

原创 python学习笔记之内建函数 isinstance()

描述:isinstance()函数用来判断一个对象是否是一个已知的类型,类似于type()isinstance() 与 type() 的区别: type() 不会认为子类是一种父类类型,不考虑继承关系。 isinstance() 会认为子类是一种父类类型,考虑继承关系。判断两者类型是否相同,推荐使用isinstance() 。示例:a = 123isinstance(a,int)>>> Trueisinstance(a,st...

2021-11-11 17:48:06 617

原创 一元线性回归-最小二乘法推导过程

设一元线性回归方程为,数据样本点为,要想使这n个样本点落在一元线性回归方程附近,不妨设误差为,使得没一个样本点落在一元线性回归方程上,因此有恒成立,所以回归直线应满足的条件是:实际值与回归估计值之间的误差平方和最小,即:此时令,原问题就转换成求解二元函数极小值问题,分别对求偏导:令上两式等于零,即最终求出两个数值,一元线性回归方程也就拟合出来了。...

2021-11-07 18:54:33 4526

原创 anaconda3 安装geopandas,以及依赖包shapely、gdal、pyproj、fiona

版本号:Windows 10专业版anaconda3 python 3.8.8开始时的报错信息没有保存下来,pip install 和conda install 都同样安装报错,好像是如下报错信息:conda install geopandasCollecting package metadata (current_repodata.json): doneSolving environment: failed with initial frozen solve. Retrying ..

2021-11-05 13:25:50 3532 9

原创 python实现一元线性回归详细步骤

#建模、预测和可视化# 导入相关包import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_split # 切分训练集和测试集的函数import matplotlibimport matplotlib.pyplot as pltmatplotlib.rcParams['font.sans-serif'] = ['Sim

2021-10-29 00:32:40 5472 2

原创 python学习笔记之-展平函数ravel和flatten及两者的区别

ravel()和flatten()是将多维数据展平为一维数据,功能相同,区别在于一个是复制操作,一个是引用操作。ravel()展平数据后,修改后面的数据会影响前面的数据,而flatten()展平数据后,不会影响前面的数据。代码如下:import numpy as npa = np.arange(15).reshape(3,5)a>>> array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10,

2021-10-27 15:44:06 4138 2

原创 异常值&离群点检测算法---箱线图四分位检测

一、四分位距检测法介绍在数据处理的过程中,异常值的检测和处理是一个较小的分支,检测的方法也有很多种,本文只介绍其中一种:四分位距法,虽然常见但功能强大。这种方法是利用箱线图的四分位距(IQR)对异常值进行检测,也叫Tukey`s test。其提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR 或QU+1.5IQR。QL:下四分位数,表示全部观察值中有四分之一的数据取值比它小; QU:上四分位数,表示全部观察值中有四分之一的数据取值比它大; IQR:四分位间距,是上四分位数.

2021-10-25 15:48:56 10967 5

原创 python pd.read_html读取数据不完整

问题:有一个较大的表格数据存在了html中,打算用read_html直接取出来这部分数据,但后来发现read_html读取的数据不完整,后来检查html的table都没有任何问题解决办法:pd.read_html的默认解析器为 'lxml' ,添加参数flavor='bs4'便可解决...

2021-10-21 10:18:42 1482

原创 python取整的几种常见方式-向上取整、向下取整、四舍五入取整、int()取整、“//”整除取整

python使用中会遇到几种取整的情况,现在整理一下,以供以后学习参考。一、向上取整,所有小数都是向着数值更大的方向取整,不论正负。math.ceil()import mathmath.ceil(0.4)>>> 1math.ceil(1.8)>>> 2math.ceil(-1.8)>>> -1二、向下取整,所有小数都是向着数值更小的方向取整,不论正负。math.floor()math.floor(1.8)

2021-10-15 00:34:37 25150 2

原创 查看局域网内所有的主机名、MAC地址和IP地址

查看局域网下所有的IP(base) wangyudeMacBook-Pro:~ wangyu$ arp -a? (169.254.193.118) at 0:e0:4d:71:f3:e7 on en7 [ethernet]? (172.16.10.1) at 3c:e5:a6:cd:34:54 on en0 ifscope [ethernet]? (172.16.10.1) at 3c:e5:a6:cd:34:54 on en7 ifscope [ethernet]? (172.16.10.1

2021-09-28 11:07:29 12552

原创 python 中“if __name__==‘__main__‘: ”作用和原理

脚本里面经常能看到这句 “if __name__=='__main__':” ,对这段代码的理解一直比较模糊,今天有空,查看了一些资料,先记下以作日后查看。一、实现效果首先看这段代码的实现效果,大家都知道我们的python代码既可以作为脚本单独运行,也可以被其python脚本 import 调用,而 “if __name__=='__main__':” 的作用便是控制这两种情况下执行代码的过程,举例:新建文件:test_a.py#!/usr/bin/env python# _*_ enc

2021-09-10 15:17:42 289

原创 python学习笔记之-melt和pivot函数

melt:英文融化、溶解pivot:英文旋转,以...为中心旋转两者经常用于数据的长宽表转换、数据的规整,与Excel的数据透视功能类似示例如下:import pandas as pddf = pd.DataFrame({ 'sd_date': ['20210825','20210826','20210827'], 'name': ['zhangsan', 'lisi', 'wangwu'], 'key1':

2021-08-27 10:01:11 3892 2

原创 python UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 问题

问题描述:服务器单独运行脚本没问题,跑定时任务时报错内容为:UnicodeEncodeError: 'ascii' codec can't encode characters in position报错原因:python使用cx_Oracle包执行读取sql语句时,由于sql中出现了汉字而抱编码相关错误解决办法:程序开头加入下列两行代码import osos.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'并把 " n

2021-08-23 12:54:39 1723 1

原创 python cx_Oracle.DatabaseError: Error while trying to retrieve text for error ORA-01804

问题描述:在使用python的包cx_Oracle时,服务器上设置定时任务时总报错,报错内容如标题,但单独运行没问题解决方法:经大佬指点,在脚本前加上几行代码,完美解决,环境变量路径根据自己的路径配置。import osos.environ["ORACLE_HOME"] = '/home/oracle/app/oracle/product/11.2.0/dbhome_1'os.environ["ORACLE_BASE"] = '/home/oracle/app/oracle'os.

2021-08-20 16:01:40 2436

原创 python cx_Oracle.DatabaseError: DPI-1047: Cannot locate a 64-bit Oracle Client library

问题:python 使用包cx_Oracle连接Oracle数据,出现错误cx_Oracle.DatabaseError: DPI-1047: Cannot locate a 64-bit Oracle Client library,百度了下问题,大体是因为python和cx_Oracle以及Oracle客户端的位数不一致造成的解决办法:因为我的python 是anaconda3安装的3.7.6版本,操作系统是win10 64位,重新下载了Oracle的客户端,下载地址如下:https:..

2021-06-23 11:37:25 5543 4

原创 python map函数

map()会根据提供的函数对指定的序列做映射语法:map(function, iterable,map(function, iterable, ...)

2021-05-31 10:16:29 78

原创 pymysql 参数详解及使用

python使用pymysql库连接MySQL数据库命令行安装:conda install pymysql或者直接在pycharm中,搜索pymysql库安装,装完之后就可以看其具体的参数了user #数据库登录用户名,默认为当前程序运行用户password #登录密码,默认为空字符串host #数据库服务器地址,默认 localhostdatabase #操作数据库port

2021-03-26 13:49:27 2079

原创 1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server

今天在写SQL,创建table的时候,出了点小问题,报错:1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'rank char(1))' at line 6, Time: 0.000000s,原代码如下create table grade(low int(3),upp

2021-02-05 11:33:35 1362

原创 python学习笔记之-numpy数组之数组序列化存储与读取

import pickleimport numpy as npx = np.arange(10)xarray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])#input写入f = open("x.pkl","wb") #打开文件x.pkl,写入二进制pickle.dump(x,f)!ls#显示当前文件夹下文件#output读取f = open("x.pkl","rb")pickle.load(f)array([0, 1, 2, 3, 4, 5, 6, 7.

2020-11-15 11:42:34 1185

SMOTE:synthetic minority over-sampling technique.pdf

SMOTE:synthetic minority over-sampling technique.pdf

2021-10-05

机器学习---中文识别.pdf

机器学习---中文识别.pdf

2021-10-05

neural-networks-and-deep-learning.pdf

neural-networks-and-deep-learning.pdf

2021-10-05

中文新词识别技术综述.pdf

中文新词识别技术综述.pdf

2021-10-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除