自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 Excel指定条件筛选

VBA高级筛选

2022-09-12 20:50:07 594

原创 python 画子图+双坐标轴图

python 画子图+双坐标轴图

2022-07-21 23:13:36 1626

原创 hive创建数据库报错

hive 创建表,字段为中文时,报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Add request failed : INSERT INTO `COLUMNS_V2` (`CD_ID`,`COMMENT`,`COLUMN_NAME`,`TYPE_NAME`,`INTEGER_IDX`) VALUES (?,?,?,?,?) )经

2022-05-23 23:08:36 1214

原创 Word2Vec报错:KeyError: “word ‘XXX‘ not in vocabulary“

Word2Vec报错:KeyError: “word ‘XXX’ not in vocabulary”在进行文本分析时,遇到Word2Vec报错:KeyError: “word ‘XXX’ not in vocabulary”,通过比较,发现在进行文本相似度时分析时,通过LinSentence(datapath)之后的列表内容和自己写的不一样。LinSentencte(datapath)转换后的结果:自己输入结果:model.wv.similarity(“书”,“笔”)最终导致KeyError:

2022-04-30 22:36:41 1594

原创 python网络爬取图片

python 爬取图片

2022-03-23 21:16:40 1588

原创 python实现二分法

二分法查找查找某个元素在已知list 中是否存在,存在,返回索引,不存在,返回-1。其中,已知list为升序序列。class Solution: def search( nums, target): mid_index=len(nums)//2 if target<=nums[mid_index]: if target in nums[0:mid_index]: return nums[0:mid_in

2022-02-09 15:38:06 603

原创 python 绘制词云图

绘制词云图,使用pyecharts时,可能会出现热点词缺失情况'''@Time : 2021/9/17 16:57@Author : @File : demo7.py@Describle :绘制词云图 pyecharts,自定义词云图 会缺失部分数据(不清楚原因,请各位大佬指教)'''import pandas as pdimport pyecharts.options as optsfrom pyecharts.charts import Word

2021-09-17 17:08:52 211

原创 批量doc 转换为docx 文档

python 批量doc 转换为docx 文档import osfrom win32com import client as wcdef doc_to_docx(rawpath): # doc转docx ''' :param rawpath: 传入文件夹的路径 :return: ''' word = wc.Dispatch("Word.Application") filenamelist = os.listdir(rawpath) fo

2021-09-16 14:16:37 530

原创 决策树——信息熵,熵增益率,基尼系数的计算说明

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。1. 信息增益 在 ID3 决策树中使用”信息熵“是度量样本集合纯度最常用的指标,假设

2021-08-12 15:26:17 2093

原创 python提取word同类型表格内容

word 文档中, 根据人物名称,对其基本信息进行分类,现在需要将其所有信息汇总为一张excel表格。代码如下:#打开目标文档document = Document("text.docx") df_tab_list=[]#存储整体内容的listfor table in document.tables: # 遍历所有表格#遍历每个表格的所有行 for row in table.rows : df_list=[] #遍历每一行的所有单元格 f

2021-07-16 17:11:10 184

原创 找出数组中重复的数字

找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/shu-zu-zhong-zhong-fu-de-shu-zi-lcof解题方法:建立一个新的集合,遍历其中每个元素,将其加入,每次比较新建集合的长度, 当长度小于i+1次时,说明出现重复数据。

2021-04-12 16:27:45 95

原创 Python自定义分组的两种方式及自定义函数

Python常用的分组方式,一种pivot_table,一种groupby自定义函数,df_series(x)用来对某一列去重拼接,df_len(x)用来对某一列去重计数,前提目标列必须是字符串。def df_series(x): return ','.join(set(x))def df_len(x): return len(set(x))pivot_table 方法pd.pivot_table(data,index='商户名',values=['交易金额','付款方'],ag

2021-03-15 09:33:53 1221

原创 scrapy爬取豆瓣top250电影

刚开始接触爬虫,第一次使用scrapy 爬取数据一、步骤安装scrapypip install scrapy创建爬虫项目scrapy startproject doubanScrapy创建爬虫程序 scrapy genspider doubanmovie movie.douban.com更改setting.py文件,添加user-agentUSER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebK

2020-12-18 15:36:50 227

原创 判断字符串中是否存在中文,若存在,则提取

判断字符串中是否存在中文,若存在,则提取。import rea='你是猴子搬来的逗逼么?hdaifkadjgdaib_dnk大概vlw nkrhdv dsa v nkdan;k_ jlh8y9eyr832r*&^)*_(^(&%))'b='dagadgadddn'def is_chinese(string): result=re.search(re.compile(u'[\u4e00-\u9fa5]+',re.UNICODE),string) if result is

2020-08-31 16:36:39 168

原创 linux解压后文件乱码问题

Linux下的默认编码是UTF8,Windows下生成的zip文件中的编码是GBK/GB2312等.zip文件在Linux下解压时出现乱码问题.执行一下命令:unzip -O GB18030 xxx.zip

2020-07-18 14:03:36 382

原创 mysql 去重问题

在处理字符串类型的数字时, 去重问题不彻底。在使用distinct 发现数据去重无法实现。原因是字段为不同的字符串。一个为20000,一个为20000.00 。数据字段time1,fx,money解决方法:1.对其money 字段进行计算处理,使其转换为数字。select * time1,fx,money+0 from data2.使用cast函数select cast(money as DECIMAL) from data 但使用cast(money as decimal)时, 针

2020-05-11 18:41:07 325

原创 python解密带密码的xlsx文件,重新写出

由于工作的需要,拿到一批含有几百张表的加密xlsx文件,需要对其汇总进行分析,使用pandas 的read_excel()方法读取时, 提示XLRDError: Can't find workbook in OLE2 compound document错误, 发现是由于xlsx加密的缘故,由于所有表数据均是一个密码,因此用下面方法进行进行解密数据进行输出。如果是 每个单表数据对应的密码不唯一, 有...

2020-04-24 13:33:44 10607 10

原创 安装软件时,提示未在本地计算机上注册Microsoft.ACE.OLREDB.12.0

安装软件时,提示未在本地计算机上注册Microsoft.ACE.OLREDB.12.0,需要安装微软的AccessDatabasesEngine驱动。AccessDatabasesEngine 下载链接:链接: https://pan.baidu.com/s/1XMRcAW1rg68Zyb4NrhtLkA提取码: h4w5...

2020-04-22 10:04:25 405

原创 mysql 自定义函数 求第N高的薪水,

这是力扣中的一道题。编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary),如果不存在第 n 高的薪水,那么查询应返回 null。CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INTBEGINset N=N-1; RETURN ( # Write your MySQL query stat...

2020-04-14 16:40:29 240

原创 使用PyEcharts绘制词云图及在jupyter中显示

PyEcharts绘制词云图时,需要注意,版本不同,对应的代码格式不一样,我这个用的是1,7版本的。之前版本的words是分为两部分当做参数传入进去的, 1.7将其合并为一个元组传入。输出结果默认为html文件,在jupyter中显示结果时,需要添加worldcloud.render_notebook()。from pyecharts import options as optsfrom p...

2020-04-03 12:04:06 4693

原创 pyspark连接mysql读取数据以及遇到的 No suitable driver的解决方法

由于对pyspark 的好奇以及追求,习惯了Python 的pandas 之后,想试试pyspark 。开始了艰难的pyspark之旅。1、数据库的连接pyspark 连接数据库import findspark#初始化findspark.init()import warningswarnings.filterwarnings('ignore')from pyspark.sql im...

2020-03-31 17:18:38 1622 4

原创 python分组和sql分组遇到的坑

在数据处理过程中,由于需要对数据进行分类统计,在使用sql时,由于后续重复性动作的实现,改用python进行处理。1、由于数据缺少缺失值,未做缺失值处理:在使用sql时,分组结果正常。维度为9x5使用Python时,发现数据组别减少.6x52、数据缺失值处理后,分组正常。通过最后检验,发现Python在分组时, 会自动忽略掉带有空值的行对其剩余的部分进行分组统计。故,在使...

2020-03-30 15:26:31 253

原创 python合并excel文件

在数据处理过程中,需要合并的一个excel文件中的多个sheet,其每个sheet的字段相同,使用了以下方法:获取excel 的多个sheet的名字,pd.io.excel.ExcelFile()使用pandas 读取 pd.read_excel()合并汇总,pd.concat()import pandas as pdpath='c:/user/dell' #路径df_list...

2020-03-25 17:44:25 170

原创 查询查询 Unknown column ‘xxx’ in ‘where clause

在sql查询中,由于不规范的操作会导致Unknown column ‘xxx’ in ‘where clauseolumn ‘xxx’ in ‘where clause错误。产生的原因是sql语句 拼接不规范导致。查询字段是int型时,不需要添加引号, 当查询字段为字符串型时,则需要添加引号。正确的语句: sql = 'select\ case when jdbz ="出" ...

2020-03-13 09:03:36 675

原创 mysql在启动问题

在windows 系统中,计算机管理——服务和应用程序——服务下,无法找到mysql 时,连接mysql会失败。解决方法:Windows+Rmysql Install/Remove of the Service Denied!错误的解决办法1、进入到window+Powersheer(超级管理员)下,通过cd命令进入到mysql的安装bin目下,此时,和bin同级目录下,没有一个名叫’da...

2020-03-10 21:51:27 103

原创 mysql数据删除

mysql 删除数据针对表的数据,有时候需要按照不同要求删除数据,以下有几个方法。1、按条件删除数据~~删除id =123456的数据~~ delete * from data where id ='123456'2、删除所有的数据同样是删除数据,在数据达到400w的时候,使用delete 特别慢,使用truncate就显得特别快。<!--整体删除-->truncat...

2020-03-07 21:08:13 86

AccessDatabaseEngine.zip

遇见本计算机未注册microsoft.ace.oledb.12.0问题时, 安装这个驱动即可,安装32位的, 64位的好像有时候不兼容

2020-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除