自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(282)
  • 收藏
  • 关注

原创 【Python】Gensim安装好后使用报错

这里写自定义目录标题Gensim报错解决办法Gensim报错首次安装Gensim扩展包后,导入扩展包直接报错,如下import gensimRuntimeError: Compiled extensions are unavailable. If you've installed from a package, ask the package maintainer to include compiled extensions. If you're building Gensim from sour

2021-11-10 14:51:34 4116 9

原创 【Win10】解决WLAN不见了,只有飞行模式开关,网络适配器只有以太网,无线网卡隐藏了,设备未连接问题

含泪记录win10系统,无法连接无线网络问题,在准备重装系统前整好了,留下了不学无术的泪水!!!以下是试过的方法:(1)网络重置(2)cmd下执行netsh winsock reset(3)services.msc启动服务项(4)修复注册表(5)驱动精灵、360网卡驱动、官网重装无线网卡驱动对于我的问题而言,通通不好使!!!最后,解决方法:重启进入BIOS进入Advanced选择Network Stack将Disabled改成Enabledsave changes and ex

2021-01-19 14:09:36 25354 33

原创 【Python】使用PdfFileMerger合并pdf时报错PdfReadError: Unexpected destination ‘/__WKANCHOR_2‘

在python中使用PyPDF2扩展包的PdfFileMerger函数合并pdf时,代码如下:merger = PdfFileMerger()input1 = open(r"2.pdf", "rb")input2 = open(r"3.pdf", "rb")merger.append(input1)merger.append(input2)# Write to an output PDF documentoutput = open(r"1.pdf", "wb")merger.write(ou

2021-01-12 16:02:51 2386

原创 【Python】使用pdfkit报错:OSError: wkhtmltopdf exited with non-zero code 1. error:

在工作自动化过程中,有时需要使用Python的pdfkit包将URL或者str等转换成pdf文件,今天使用如下代码在将str转换为pdf时,代码如下:options = {'page-size':'Letter','margin-top':'0.75in','margin-right':'0.75in','margin-bottom':'0.75in','margin-left':'0.75in','encoding':"UTF-8",'custom-header': [('Accept-Enco

2021-01-12 16:00:20 4145 1

原创 【Python】使用pdfkit将str或者URL转化为PDF时报错:OSError: No wkhtmltopdf executable found

在使用pdfkit.from_string或者pdfkit.from_file或者pdfkit.from_url将字符串、文件或者网页内容转化为pdf时,报错:OSError: No wkhtmltopdf executable found原因很明显,就是没找到可执行的wkhtmltopdf文件,也就是未找到wkhtmltopdf.exe文件。python的pdfkit扩展包使用时需要基于wkhtmltopdf.exe这个可执行文件才可运行,因此需要先安装wkhtmltopdf。对于windows

2021-01-12 15:58:00 3072

原创 【Hive】内部表和外部表

内部表:Hive默认表,创建一个内部表,那么表将在HDFS中的特定位置创建。删除一个内部表,这个表的表数据和元数据都将从HDFS中删除。外部表:创建表时使用EXTERNAL关键字,删除外部表时,HDFS文件中的数据将保留。...

2021-01-12 15:52:33 232

原创 【Python】绘制PR曲线

数据挖掘模型训练好了之后,对于二分类问题,可以预测每个测试样本属于某个类别的概率,当我们设置不同阈值时,将得到不同的P值(Precision,查准率)和R值(Recall,查全率)基于此,可以绘制PR曲线,python绘制PR曲线比较方便。首先,可以使用precision_recall_curve函数得到#选择测试数据import pandas as pddf = pd.read_csv('file_name.csv')X = df[df.columns[:-1]]y = df[df.co

2021-01-12 15:50:12 7729 4

原创 【Python】操作word文档

#导入相关扩展包import docxfrom docx.enum.text import WD_ALIGN_PARAGRAPH#设置对齐格式from docx.shared import Pt#设置字体大小from docx.shared import Inches#设置缩进,图片大小等from docx.oxml.ns import qn#(1)写入word文件#首先,创建一个Document对象,即word文档doc = docx.Document()#添加一段文字p1 =

2020-12-21 23:32:35 559

原创 【Python】plt.savefig()保存图片不完整,x轴标签被截断

今天在用Python的plt.savefig()函数保存图片到本地时,发现保存下来的图片不完整,x轴标签被截断了。经过一番搜索,找到了解决方法:加上参数bbox_inches = 'tight'即可:plt.savefig(r"figure.png",bbox_inches = 'tight')...

2020-12-21 23:30:12 12898 3

原创 【Python】ParserError: Error tokenizing data. C error: Expected 1 fields in line 144, saw 4

Python使用pd.read_csv报错ParserError: Error tokenizing data. C error: Expected 1 fields in line 144, saw 4解决方法:pd.read_csv(path,sep='\t')

2020-12-21 23:27:35 2035

原创 【Python】获取excel所有的sheet名称

import pandas as pdpath = r"excel_file.xlsx"xlsx = pd.ExcelFile(path)xlsx.sheet_names #输出所有的sheet名称

2020-12-21 23:25:15 3101 3

原创 【Jupyter】快捷键

Enter : 转入编辑模式Esc : 退出编辑模式,进入命令模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元1 : 设定 1 级标题2 : 设定 2 级标题3 : 设定 3 级标题4 : 设定 4 级标题5 : 设定 5 级标题6 : 设定 6 级标题Up : 选中上方单元Down : 选中下方单元A : 在上方插入新单元B : 在下方插入新单元X : 剪切选中的单元F:查找、替

2020-12-21 23:24:17 318

原创 【Hive】Both left and right aliases encountered in JOIN

执行Hive语句报错:Both left and right aliases encountered in JOIN报错原因:在join的on条件中添加了不相等条件解决方法:把不相等条件放到where中即可

2020-12-21 23:23:19 678

原创 【Hive】unsupport subquery expression

hive报错unsupport subquery expression表示不支持子查询,可以改用left join方式

2020-12-21 23:21:03 1487

原创 【Python】补齐缺失日期

有DataFrame类型数据data,其中有index列为日期,另有value列,补充缺失日期列index代码如下:import pandas as pdimport datetime#创建DataFrame数据,包括index列和value列,其中index列为日期,但是格式为string格式data = pd.DataFrame(data={'index':['2020-10-09','2020-10-10','2020-10-17','2020-10-15'],'value':range(4

2020-12-21 20:03:31 6701 1

原创 【Linux】复制文件前n行、后n行

使用head或者tail重定向如复制文件前1000行:head -n 1000 filename1 > filename2

2020-12-21 19:58:36 3494

原创 【Linux】查看文件行数、字数

wc [选项] 文件-c 统计字节数-l 统计行数-w 统计字数-m 统计字符数

2020-12-21 19:56:20 883 1

原创 【Python】绘制并列柱状图

如下代码:#导入扩展包import matplotlib.pyplot as pltimport numpy as np#构造数据y1 = [1,4,6,8,9,4,3,8]y2 = [2,5,9,5,3,2,7,4]x = np.arange(len(y1))#设置柱状图的宽度width = 0.4#绘图plt.figure(figsize=(8,4))plt.bar(x=x,height=y1,width=width,label='Data1')plt.bar(x=x+

2020-12-21 19:51:10 8024 4

原创 【Python】plt.bar绘制柱状图参数详解

bar(x, height, width=0.8, bottom=None, ***, align='center', data=None, **kwargs)x 表示x坐标,数据类型为int或float类型,height 表示柱状图的高度,也就是y坐标值,数据类型为int或float类型,width 表示柱状图的宽度,取值在0~1之间,默认为0.8bottom 柱状图的起始位置,也就是y轴的起始坐标,align 柱状图的中心位置,"center","lege"边缘color 柱状图颜色ed

2020-12-21 19:48:48 26655 1

原创 【MySQL】float数据类型显示数据后几位不准确

解决方法:将数据类型改为bigint类型即可更改数据类型语句:alter table table_name modify column column_name 数据类型;

2020-12-21 19:44:47 673

原创 【MySQL】Error 1264: out of range value for column

mysql更改数据类型 或者 插入数据 Error 1264: out of range value for column这是由于mysql数据长度限制

2020-12-21 19:33:03 1193

原创 【Hive】向下取整,向上取整,四舍五入

floor函数向下取整select floor(1.2)1ceil函数向上取整select ceil(1.2)2round函数四舍五入select round(1.283,2)1.28

2020-12-21 19:25:24 1463

原创 【R语言】绘制权重散点图

library("plotly")plot_ly(data = df, x = ~age, y = ~income, size = ~weight)

2020-12-20 16:50:21 1073 1

原创 【R语言】绘制权重直方图

library("plotrix")weighted.hist(x=df$feature,w=df$weight,breaks=seq(1,100,length.out=11),freq=F,col=rainbow(11))#weighted.hist函数参数x为绘制直方图对象,w为权重

2020-12-20 16:39:45 1402

原创 【R语言】创建空的dataframe

如下:df = as.data.frame(matrix(nrow=0,ncol=3)) #创建一个3列的空对象

2020-12-20 16:36:56 18525

原创 【R语言】data.frame 分组计数、求和等

df为1个data.frame对象,有stratum和psu两列,这里统计stratum列计数方法1:cnt = table(df$stratum)方法2:cnt = tapply(df$psu, INDEX=df$stratum, FUN=length)在方法2的基础上,只要改变FUN函数就可以实现分组求和、求均值等功能,如下分组求均值:tapply(df$psu, INDEX=df$stratum, FUN=mean)#(等价于python中的df.groupby('stratum'

2020-12-20 16:35:23 12862

原创 【R语言】pps采样

pps采样,全称是Probability Proportionate to Size Sampling,用R进行pps采样代码如下:pik <-inclusionprobabilities(data$psu,n=2)s <- UPmultinomial(pik)sam <- data[s!=0,]

2020-12-20 16:22:08 3119 1

原创 【R语言】对data.frame的行随机抽样

df是R中的data.frame对象,对其行进项无放回随机采样,直接使用以下代码即可:df[sample(nrow(df), 10), ]

2020-12-08 20:47:34 11459 3

原创 【R语言】随机采样

R语言中,进行随机采样可以使用sample函数,具体如下:#函数:sample(x, size, replace = FALSE, prob = NULL)#参数含义x:向量,表示抽样的总体,或者是一个正整数,表示样本总体为1~nsize:为样本容量,即要抽取的样本个数,是一个非负整数replace:表示是否为有放回的抽样,是一个逻辑值,默认为FALSE,即默认为无放回抽样;prob:为权重向量,即x中元素被抽取到的概率,是一个取值0~1的向量,其长度应该与x的长度相同。参考链接:http

2020-12-08 20:29:21 3227

原创 【R语言】rpois函数参数详解

想要了解更多可以去官方文档查看,链接。rpois函数主要用于产生泊松分布的随机数,其中参数n代表产生数据个数,参数lambda表示产生一组数据的(非负)均值,具体如下:rpois(n, lambda)n:number of random values to return.lambda:vector of (non-negative) means....

2020-12-05 15:00:48 8405

原创 机器学习在癌症数据集上的应用实践

在本文中,我们一起学习如何将机器学习应用于癌症数据集。1.摘要支持向量机(SVM)是机器学习中最流行的有监督学习算法之一。许多研究人员都通过实践证明了该算法的优异性。SVM既可以应用于回归问题,也可以应用于分类问题,本文以癌症数据集为例,描述了SVM在分类问题上的应用。2.简介SVM算法的应用十分广泛,目前已经应用到医学研究,面部识别,垃圾邮件分类,文档分类,手写识别等方面。在医学研究领域,SVM已被从业人员应用于:白细胞分类癌症预测基因分类部分研究人员声称,SVM在这些研究方面比逻

2020-11-24 19:30:45 4927 3

原创 为了学爬虫,我用三步爬取了大佬崔庆才爬虫相关文章,并保持为pdf学习

为了学习网络爬虫,我爬取了网络爬虫届大佬崔庆才的所有Python博客,并转换成了pdf,以便后续学习。1.代码思路获取所有博客的URL获得每篇博客的html内容,并转化为pdf文件合并pdf文件2.获取所有博客URL首先,通过崔老师的博客网站可知,目前Python博客内容包含7页,如下图通过这些博客分类页面,很方面就能获得每篇博客的网址,代码如下:#获取所有URLdef get_url(): url_list = [] for i in range(7,0,-1):

2020-11-22 17:05:18 547 2

原创 【Linux】文件属性查看详解

使用ls -al 查看当前目录下所有文件属性,输出如下:drwxr-xr-x 3 root root 4096 Sep 23 19:43 .dr-xr-x---. 32 root root 12288 Oct 12 14:28 ..-rw-r--r-- 1 root root 0 Sep 18 15:56 attrtestdrwxr-xr-x 3 root root 4096 Sep 22 11:29 Asher-rw-r--r-- 1 root root 52

2020-10-14 20:57:24 772

原创 【Hive】distinct on different columns not supported with skew in data

今天运行hive时候报错,如下:distinct on different columns not supported with skew in data由于对多个列执行去重操作导致,如以下代码:select id, count(distinct col1) as cnt1, count(distinct col2) as cnt2 from table_name group by id报这个错误的原因与hive的环境变量hive.groupby.skewindata相关默认情况下

2020-10-14 20:49:04 3143

原创 【Python】移动、复制文件到另一个文件夹、删除文件(夹)

引入shutil模块import shutil复制或移动到目的文件夹下面shutil.copy('demo.txt','新的文件夹')file1.txt 移动到 新的文件夹 下面shutil.move('file1.txt','新的文件夹')复制或移动到目的文件夹下面之后,重命名shutil.copy('demo.txt','新的文件夹/new1.txt')shutil.move('file2.txt','新的文件夹/new2.txt')导入os模块import os删除 f

2020-10-14 20:45:50 24322

原创 【python3】写入excel文件(设置字体型号、边框样式、单元格对齐方式、合并单元格,列宽、行高等)

主要使用xlwt扩展包import xlwt创建workbook(Excel文件)workbook = xlwt.Workbook(encoding = 'utf-8')添加sheetsheet = workbook.add_sheet('sheetname')写入数据#格式:sheet.write(m,n,data),表示在第m行n列写入数据data#注意:m和n从0开始sheet.write(1,0,'第一行第0列')合并单元格,并写入数据#格式:#sheet.write_

2020-10-12 21:11:16 2223

原创 【Python】将xls格式转换为xlsx格式

Python批量将xls格式转换为xlsx格式,使用下面代码即可import win32com.client as win32fname = r'excelname.xls'excel = win32.gencache.EnsureDispatch('Excel.Application')wb = excel.Workbooks.Open(fname)wb.SaveAs(fname+"x", FileFormat = 51) #FileFormat = 51 is for .xlsx ext

2020-10-12 21:00:45 2961 1

原创 【Hive】missing KW_END at ‘)‘ near ‘<EOF>‘

报错:missing KW_END at ')' near '<EOF>'原因:case when 后面没写end

2020-10-09 15:41:00 5250

原创 【Excel】画图快捷键

选中数据,然后Alt+F1即可。

2020-10-09 15:37:18 691

原创 【Excel】单元格输入换行符、替换换行符

(1)在单元格中输入换行符方法:Alt+Enter(2)替换换行符:Ctrl+H 打开替换,然后在“查找内容”中输入Alt+1+0(按着不放),即可看到闪动的小黑点,即可替换ps:如果excel中有换行符,但是出现查找不到的情况,可以关掉所有的excel再打开要替换的试一下...

2020-10-09 15:35:47 10905 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除