qq_32834123-CSDN博客

原创 python 画子图+双坐标轴图

python 画子图+双坐标轴图

2022-07-21 23:13:36 1626

hive 创建表，字段为中文时，报错：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Add request failed : INSERT INTO `COLUMNS_V2` (`CD_ID`,`COMMENT`,`COLUMN_NAME`,`TYPE_NAME`,`INTEGER_IDX`) VALUES (?,?,?,?,?) )经

2022-05-23 23:08:36 1214

原创 Word2Vec报错：KeyError: “word ‘XXX‘ not in vocabulary“

Word2Vec报错：KeyError: “word ‘XXX’ not in vocabulary”在进行文本分析时，遇到Word2Vec报错：KeyError: “word ‘XXX’ not in vocabulary”，通过比较，发现在进行文本相似度时分析时，通过LinSentence(datapath)之后的列表内容和自己写的不一样。LinSentencte(datapath)转换后的结果：自己输入结果：model.wv.similarity(“书”,“笔”)最终导致KeyError:

2022-04-30 22:36:41 1594

原创 python网络爬取图片

python 爬取图片

2022-03-23 21:16:40 1588

原创 python实现二分法

二分法查找查找某个元素在已知list 中是否存在，存在，返回索引，不存在，返回-1。其中，已知list为升序序列。class Solution: def search( nums, target): mid_index=len(nums)//2 if target<=nums[mid_index]: if target in nums[0:mid_index]: return nums[0:mid_in

2022-02-09 15:38:06 603

原创 python 绘制词云图

绘制词云图，使用pyecharts时，可能会出现热点词缺失情况'''@Time : 2021/9/17 16:57@Author : @File : demo7.py@Describle :绘制词云图 pyecharts，自定义词云图会缺失部分数据（不清楚原因，请各位大佬指教）'''import pandas as pdimport pyecharts.options as optsfrom pyecharts.charts import Word

2021-09-17 17:08:52 211

原创批量doc 转换为docx 文档

python 批量doc 转换为docx 文档import osfrom win32com import client as wcdef doc_to_docx(rawpath): # doc转docx ''' :param rawpath: 传入文件夹的路径 :return: ''' word = wc.Dispatch("Word.Application") filenamelist = os.listdir(rawpath) fo

2021-09-16 14:16:37 530

原创决策树——信息熵，熵增益率，基尼系数的计算说明

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。1. 信息增益在 ID3 决策树中使用”信息熵“是度量样本集合纯度最常用的指标，假设

2021-08-12 15:26:17 2093

原创 python提取word同类型表格内容

word 文档中，根据人物名称，对其基本信息进行分类，现在需要将其所有信息汇总为一张excel表格。代码如下：#打开目标文档document = Document("text.docx") df_tab_list=[]#存储整体内容的listfor table in document.tables: # 遍历所有表格#遍历每个表格的所有行 for row in table.rows : df_list=[] #遍历每一行的所有单元格 f

2021-07-16 17:11:10 184

原创找出数组中重复的数字

找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0～n-1 的范围内。数组中某些数字是重复的，但不知道有几个数字重复了，也不知道每个数字重复了几次。请找出数组中任意一个重复的数字来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/shu-zu-zhong-zhong-fu-de-shu-zi-lcof解题方法：建立一个新的集合，遍历其中每个元素，将其加入，每次比较新建集合的长度，当长度小于i+1次时，说明出现重复数据。

2021-04-12 16:27:45 95

原创 Python自定义分组的两种方式及自定义函数

Python常用的分组方式，一种pivot_table,一种groupby自定义函数，df_series(x)用来对某一列去重拼接，df_len（x）用来对某一列去重计数，前提目标列必须是字符串。def df_series(x): return ','.join(set(x))def df_len(x): return len(set(x))pivot_table 方法pd.pivot_table(data,index='商户名',values=['交易金额','付款方'],ag

2021-03-15 09:33:53 1221

原创 scrapy爬取豆瓣top250电影

刚开始接触爬虫，第一次使用scrapy 爬取数据一、步骤安装scrapypip install scrapy创建爬虫项目scrapy startproject doubanScrapy创建爬虫程序 scrapy genspider doubanmovie movie.douban.com更改setting.py文件，添加user-agentUSER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebK

2020-12-18 15:36:50 227

原创判断字符串中是否存在中文，若存在，则提取

判断字符串中是否存在中文，若存在，则提取。import rea='你是猴子搬来的逗逼么？hdaifkadjgdaib_dnk大概vlw nkrhdv dsa v nkdan;k_ jlh8y9eyr832r*&^)*_(^(&%))'b='dagadgadddn'def is_chinese(string): result=re.search(re.compile(u'[\u4e00-\u9fa5]+',re.UNICODE),string) if result is

2020-08-31 16:36:39 168

原创 linux解压后文件乱码问题

Linux下的默认编码是UTF8,Windows下生成的zip文件中的编码是GBK/GB2312等.zip文件在Linux下解压时出现乱码问题.执行一下命令:unzip -O GB18030 xxx.zip

2020-07-18 14:03:36 382

原创 mysql 去重问题

在处理字符串类型的数字时，去重问题不彻底。在使用distinct 发现数据去重无法实现。原因是字段为不同的字符串。一个为20000，一个为20000.00 。数据字段time1,fx,money解决方法：1.对其money 字段进行计算处理，使其转换为数字。select * time1,fx,money+0 from data2.使用cast函数select cast(money as DECIMAL) from data 但使用cast（money as decimal）时，针

2020-05-11 18:41:07 325

原创 python解密带密码的xlsx文件，重新写出

由于工作的需要，拿到一批含有几百张表的加密xlsx文件，需要对其汇总进行分析，使用pandas 的read_excel()方法读取时，提示XLRDError: Can't find workbook in OLE2 compound document错误，发现是由于xlsx加密的缘故，由于所有表数据均是一个密码，因此用下面方法进行进行解密数据进行输出。如果是每个单表数据对应的密码不唯一，有...

2020-04-24 13:33:44 10607 10

原创安装软件时，提示未在本地计算机上注册Microsoft.ACE.OLREDB.12.0

安装软件时，提示未在本地计算机上注册Microsoft.ACE.OLREDB.12.0,需要安装微软的AccessDatabasesEngine驱动。AccessDatabasesEngine 下载链接：链接: https://pan.baidu.com/s/1XMRcAW1rg68Zyb4NrhtLkA提取码: h4w5...

2020-04-22 10:04:25 405

原创 mysql 自定义函数求第N高的薪水，

这是力扣中的一道题。编写一个 SQL 查询，获取 Employee 表中第 n 高的薪水（Salary），如果不存在第 n 高的薪水，那么查询应返回 null。CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INTBEGINset N=N-1; RETURN ( # Write your MySQL query stat...

2020-04-14 16:40:29 240

原创使用PyEcharts绘制词云图及在jupyter中显示

PyEcharts绘制词云图时，需要注意，版本不同，对应的代码格式不一样，我这个用的是1,7版本的。之前版本的words是分为两部分当做参数传入进去的， 1.7将其合并为一个元组传入。输出结果默认为html文件，在jupyter中显示结果时，需要添加worldcloud.render_notebook()。from pyecharts import options as optsfrom p...

2020-04-03 12:04:06 4693

原创 pyspark连接mysql读取数据以及遇到的 No suitable driver的解决方法

由于对pyspark 的好奇以及追求，习惯了Python 的pandas 之后，想试试pyspark 。开始了艰难的pyspark之旅。1、数据库的连接pyspark 连接数据库import findspark#初始化findspark.init()import warningswarnings.filterwarnings('ignore')from pyspark.sql im...

2020-03-31 17:18:38 1622 4

原创 python分组和sql分组遇到的坑

在数据处理过程中，由于需要对数据进行分类统计，在使用sql时，由于后续重复性动作的实现，改用python进行处理。1、由于数据缺少缺失值，未做缺失值处理：在使用sql时，分组结果正常。维度为9x5使用Python时，发现数据组别减少.6x52、数据缺失值处理后，分组正常。通过最后检验，发现Python在分组时，会自动忽略掉带有空值的行对其剩余的部分进行分组统计。故，在使...

2020-03-30 15:26:31 253

原创 python合并excel文件

在数据处理过程中，需要合并的一个excel文件中的多个sheet,其每个sheet的字段相同，使用了以下方法：获取excel 的多个sheet的名字,pd.io.excel.ExcelFile()使用pandas 读取 pd.read_excel()合并汇总，pd.concat()import pandas as pdpath='c:/user/dell' #路径df_list...

2020-03-25 17:44:25 170

原创查询查询 Unknown column ‘xxx’ in ‘where clause

在sql查询中，由于不规范的操作会导致Unknown column ‘xxx’ in ‘where clauseolumn ‘xxx’ in ‘where clause错误。产生的原因是sql语句拼接不规范导致。查询字段是int型时，不需要添加引号，当查询字段为字符串型时，则需要添加引号。正确的语句： sql = 'select\ case when jdbz ="出" ...

2020-03-13 09:03:36 675

原创 mysql在启动问题

在windows 系统中，计算机管理——服务和应用程序——服务下，无法找到mysql 时，连接mysql会失败。解决方法：Windows+Rmysql Install/Remove of the Service Denied!错误的解决办法1、进入到window+Powersheer(超级管理员)下，通过cd命令进入到mysql的安装bin目下，此时，和bin同级目录下，没有一个名叫’da...

2020-03-10 21:51:27 103

原创 mysql数据删除

mysql 删除数据针对表的数据，有时候需要按照不同要求删除数据，以下有几个方法。1、按条件删除数据~~删除id =123456的数据~~ delete * from data where id ='123456'2、删除所有的数据同样是删除数据，在数据达到400w的时候，使用delete 特别慢，使用truncate就显得特别快。truncat...

2020-03-07 21:08:13 86

qq_32834123的博客

原创 Excel指定条件筛选