- 博客(282)
- 收藏
- 关注
原创 【Python】Gensim安装好后使用报错
这里写自定义目录标题Gensim报错解决办法Gensim报错首次安装Gensim扩展包后,导入扩展包直接报错,如下import gensimRuntimeError: Compiled extensions are unavailable. If you've installed from a package, ask the package maintainer to include compiled extensions. If you're building Gensim from sour
2021-11-10 14:51:34
3365
9
原创 【Win10】解决WLAN不见了,只有飞行模式开关,网络适配器只有以太网,无线网卡隐藏了,设备未连接问题
含泪记录win10系统,无法连接无线网络问题,在准备重装系统前整好了,留下了不学无术的泪水!!!以下是试过的方法:(1)网络重置(2)cmd下执行netsh winsock reset(3)services.msc启动服务项(4)修复注册表(5)驱动精灵、360网卡驱动、官网重装无线网卡驱动对于我的问题而言,通通不好使!!!最后,解决方法:重启进入BIOS进入Advanced选择Network Stack将Disabled改成Enabledsave changes and ex
2021-01-19 14:09:36
23329
32
原创 【Python】使用PdfFileMerger合并pdf时报错PdfReadError: Unexpected destination ‘/__WKANCHOR_2‘
在python中使用PyPDF2扩展包的PdfFileMerger函数合并pdf时,代码如下:merger = PdfFileMerger()input1 = open(r"2.pdf", "rb")input2 = open(r"3.pdf", "rb")merger.append(input1)merger.append(input2)# Write to an output PDF documentoutput = open(r"1.pdf", "wb")merger.write(ou
2021-01-12 16:02:51
1816
原创 【Python】使用pdfkit报错:OSError: wkhtmltopdf exited with non-zero code 1. error:
在工作自动化过程中,有时需要使用Python的pdfkit包将URL或者str等转换成pdf文件,今天使用如下代码在将str转换为pdf时,代码如下:options = {'page-size':'Letter','margin-top':'0.75in','margin-right':'0.75in','margin-bottom':'0.75in','margin-left':'0.75in','encoding':"UTF-8",'custom-header': [('Accept-Enco
2021-01-12 16:00:20
3375
1
原创 【Python】使用pdfkit将str或者URL转化为PDF时报错:OSError: No wkhtmltopdf executable found
在使用pdfkit.from_string或者pdfkit.from_file或者pdfkit.from_url将字符串、文件或者网页内容转化为pdf时,报错:OSError: No wkhtmltopdf executable found原因很明显,就是没找到可执行的wkhtmltopdf文件,也就是未找到wkhtmltopdf.exe文件。python的pdfkit扩展包使用时需要基于wkhtmltopdf.exe这个可执行文件才可运行,因此需要先安装wkhtmltopdf。对于windows
2021-01-12 15:58:00
1876
原创 【Hive】内部表和外部表
内部表:Hive默认表,创建一个内部表,那么表将在HDFS中的特定位置创建。删除一个内部表,这个表的表数据和元数据都将从HDFS中删除。外部表:创建表时使用EXTERNAL关键字,删除外部表时,HDFS文件中的数据将保留。...
2021-01-12 15:52:33
156
原创 【Python】绘制PR曲线
数据挖掘模型训练好了之后,对于二分类问题,可以预测每个测试样本属于某个类别的概率,当我们设置不同阈值时,将得到不同的P值(Precision,查准率)和R值(Recall,查全率)基于此,可以绘制PR曲线,python绘制PR曲线比较方便。首先,可以使用precision_recall_curve函数得到#选择测试数据import pandas as pddf = pd.read_csv('file_name.csv')X = df[df.columns[:-1]]y = df[df.co
2021-01-12 15:50:12
6405
4
原创 【Python】操作word文档
#导入相关扩展包import docxfrom docx.enum.text import WD_ALIGN_PARAGRAPH#设置对齐格式from docx.shared import Pt#设置字体大小from docx.shared import Inches#设置缩进,图片大小等from docx.oxml.ns import qn#(1)写入word文件#首先,创建一个Document对象,即word文档doc = docx.Document()#添加一段文字p1 =
2020-12-21 23:32:35
387
原创 【Python】plt.savefig()保存图片不完整,x轴标签被截断
今天在用Python的plt.savefig()函数保存图片到本地时,发现保存下来的图片不完整,x轴标签被截断了。经过一番搜索,找到了解决方法:加上参数bbox_inches = 'tight'即可:plt.savefig(r"figure.png",bbox_inches = 'tight')...
2020-12-21 23:30:12
7440
原创 【Python】ParserError: Error tokenizing data. C error: Expected 1 fields in line 144, saw 4
Python使用pd.read_csv报错ParserError: Error tokenizing data. C error: Expected 1 fields in line 144, saw 4解决方法:pd.read_csv(path,sep='\t')
2020-12-21 23:27:35
1898
原创 【Python】获取excel所有的sheet名称
import pandas as pdpath = r"excel_file.xlsx"xlsx = pd.ExcelFile(path)xlsx.sheet_names #输出所有的sheet名称
2020-12-21 23:25:15
2698
3
原创 【Jupyter】快捷键
Enter : 转入编辑模式Esc : 退出编辑模式,进入命令模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元1 : 设定 1 级标题2 : 设定 2 级标题3 : 设定 3 级标题4 : 设定 4 级标题5 : 设定 5 级标题6 : 设定 6 级标题Up : 选中上方单元Down : 选中下方单元A : 在上方插入新单元B : 在下方插入新单元X : 剪切选中的单元F:查找、替
2020-12-21 23:24:17
174
原创 【Hive】Both left and right aliases encountered in JOIN
执行Hive语句报错:Both left and right aliases encountered in JOIN报错原因:在join的on条件中添加了不相等条件解决方法:把不相等条件放到where中即可
2020-12-21 23:23:19
493
原创 【Hive】unsupport subquery expression
hive报错unsupport subquery expression表示不支持子查询,可以改用left join方式
2020-12-21 23:21:03
863
原创 【Python】补齐缺失日期
有DataFrame类型数据data,其中有index列为日期,另有value列,补充缺失日期列index代码如下:import pandas as pdimport datetime#创建DataFrame数据,包括index列和value列,其中index列为日期,但是格式为string格式data = pd.DataFrame(data={'index':['2020-10-09','2020-10-10','2020-10-17','2020-10-15'],'value':range(4
2020-12-21 20:03:31
5766
1
原创 【Linux】复制文件前n行、后n行
使用head或者tail重定向如复制文件前1000行:head -n 1000 filename1 > filename2
2020-12-21 19:58:36
2706
原创 【Python】绘制并列柱状图
如下代码:#导入扩展包import matplotlib.pyplot as pltimport numpy as np#构造数据y1 = [1,4,6,8,9,4,3,8]y2 = [2,5,9,5,3,2,7,4]x = np.arange(len(y1))#设置柱状图的宽度width = 0.4#绘图plt.figure(figsize=(8,4))plt.bar(x=x,height=y1,width=width,label='Data1')plt.bar(x=x+
2020-12-21 19:51:10
6877
4
原创 【Python】plt.bar绘制柱状图参数详解
bar(x, height, width=0.8, bottom=None, ***, align='center', data=None, **kwargs)x 表示x坐标,数据类型为int或float类型,height 表示柱状图的高度,也就是y坐标值,数据类型为int或float类型,width 表示柱状图的宽度,取值在0~1之间,默认为0.8bottom 柱状图的起始位置,也就是y轴的起始坐标,align 柱状图的中心位置,"center","lege"边缘color 柱状图颜色ed
2020-12-21 19:48:48
24473
1
原创 【MySQL】float数据类型显示数据后几位不准确
解决方法:将数据类型改为bigint类型即可更改数据类型语句:alter table table_name modify column column_name 数据类型;
2020-12-21 19:44:47
435
原创 【MySQL】Error 1264: out of range value for column
mysql更改数据类型 或者 插入数据 Error 1264: out of range value for column这是由于mysql数据长度限制
2020-12-21 19:33:03
522
原创 【Hive】向下取整,向上取整,四舍五入
floor函数向下取整select floor(1.2)1ceil函数向上取整select ceil(1.2)2round函数四舍五入select round(1.283,2)1.28
2020-12-21 19:25:24
1215
原创 【R语言】绘制权重散点图
library("plotly")plot_ly(data = df, x = ~age, y = ~income, size = ~weight)
2020-12-20 16:50:21
894
1
原创 【R语言】绘制权重直方图
library("plotrix")weighted.hist(x=df$feature,w=df$weight,breaks=seq(1,100,length.out=11),freq=F,col=rainbow(11))#weighted.hist函数参数x为绘制直方图对象,w为权重
2020-12-20 16:39:45
1065
原创 【R语言】创建空的dataframe
如下:df = as.data.frame(matrix(nrow=0,ncol=3)) #创建一个3列的空对象
2020-12-20 16:36:56
16095
原创 【R语言】data.frame 分组计数、求和等
df为1个data.frame对象,有stratum和psu两列,这里统计stratum列计数方法1:cnt = table(df$stratum)方法2:cnt = tapply(df$psu, INDEX=df$stratum, FUN=length)在方法2的基础上,只要改变FUN函数就可以实现分组求和、求均值等功能,如下分组求均值:tapply(df$psu, INDEX=df$stratum, FUN=mean)#(等价于python中的df.groupby('stratum'
2020-12-20 16:35:23
11722
原创 【R语言】pps采样
pps采样,全称是Probability Proportionate to Size Sampling,用R进行pps采样代码如下:pik <-inclusionprobabilities(data$psu,n=2)s <- UPmultinomial(pik)sam <- data[s!=0,]
2020-12-20 16:22:08
2212
1
原创 【R语言】对data.frame的行随机抽样
df是R中的data.frame对象,对其行进项无放回随机采样,直接使用以下代码即可:df[sample(nrow(df), 10), ]
2020-12-08 20:47:34
9146
3
原创 【R语言】随机采样
R语言中,进行随机采样可以使用sample函数,具体如下:#函数:sample(x, size, replace = FALSE, prob = NULL)#参数含义x:向量,表示抽样的总体,或者是一个正整数,表示样本总体为1~nsize:为样本容量,即要抽取的样本个数,是一个非负整数replace:表示是否为有放回的抽样,是一个逻辑值,默认为FALSE,即默认为无放回抽样;prob:为权重向量,即x中元素被抽取到的概率,是一个取值0~1的向量,其长度应该与x的长度相同。参考链接:http
2020-12-08 20:29:21
2529
原创 【R语言】rpois函数参数详解
想要了解更多可以去官方文档查看,链接。rpois函数主要用于产生泊松分布的随机数,其中参数n代表产生数据个数,参数lambda表示产生一组数据的(非负)均值,具体如下:rpois(n, lambda)n:number of random values to return.lambda:vector of (non-negative) means....
2020-12-05 15:00:48
7012
原创 机器学习在癌症数据集上的应用实践
在本文中,我们一起学习如何将机器学习应用于癌症数据集。1.摘要支持向量机(SVM)是机器学习中最流行的有监督学习算法之一。许多研究人员都通过实践证明了该算法的优异性。SVM既可以应用于回归问题,也可以应用于分类问题,本文以癌症数据集为例,描述了SVM在分类问题上的应用。2.简介SVM算法的应用十分广泛,目前已经应用到医学研究,面部识别,垃圾邮件分类,文档分类,手写识别等方面。在医学研究领域,SVM已被从业人员应用于:白细胞分类癌症预测基因分类部分研究人员声称,SVM在这些研究方面比逻
2020-11-24 19:30:45
4206
3
原创 为了学爬虫,我用三步爬取了大佬崔庆才爬虫相关文章,并保持为pdf学习
为了学习网络爬虫,我爬取了网络爬虫届大佬崔庆才的所有Python博客,并转换成了pdf,以便后续学习。1.代码思路获取所有博客的URL获得每篇博客的html内容,并转化为pdf文件合并pdf文件2.获取所有博客URL首先,通过崔老师的博客网站可知,目前Python博客内容包含7页,如下图通过这些博客分类页面,很方面就能获得每篇博客的网址,代码如下:#获取所有URLdef get_url(): url_list = [] for i in range(7,0,-1):
2020-11-22 17:05:18
427
2
原创 【Linux】文件属性查看详解
使用ls -al 查看当前目录下所有文件属性,输出如下:drwxr-xr-x 3 root root 4096 Sep 23 19:43 .dr-xr-x---. 32 root root 12288 Oct 12 14:28 ..-rw-r--r-- 1 root root 0 Sep 18 15:56 attrtestdrwxr-xr-x 3 root root 4096 Sep 22 11:29 Asher-rw-r--r-- 1 root root 52
2020-10-14 20:57:24
619
原创 【Hive】distinct on different columns not supported with skew in data
今天运行hive时候报错,如下:distinct on different columns not supported with skew in data由于对多个列执行去重操作导致,如以下代码:select id, count(distinct col1) as cnt1, count(distinct col2) as cnt2 from table_name group by id报这个错误的原因与hive的环境变量hive.groupby.skewindata相关默认情况下
2020-10-14 20:49:04
2202
原创 【Python】移动、复制文件到另一个文件夹、删除文件(夹)
引入shutil模块import shutil复制或移动到目的文件夹下面shutil.copy('demo.txt','新的文件夹')file1.txt 移动到 新的文件夹 下面shutil.move('file1.txt','新的文件夹')复制或移动到目的文件夹下面之后,重命名shutil.copy('demo.txt','新的文件夹/new1.txt')shutil.move('file2.txt','新的文件夹/new2.txt')导入os模块import os删除 f
2020-10-14 20:45:50
9983
原创 【python3】写入excel文件(设置字体型号、边框样式、单元格对齐方式、合并单元格,列宽、行高等)
主要使用xlwt扩展包import xlwt创建workbook(Excel文件)workbook = xlwt.Workbook(encoding = 'utf-8')添加sheetsheet = workbook.add_sheet('sheetname')写入数据#格式:sheet.write(m,n,data),表示在第m行n列写入数据data#注意:m和n从0开始sheet.write(1,0,'第一行第0列')合并单元格,并写入数据#格式:#sheet.write_
2020-10-12 21:11:16
1950
原创 【Python】将xls格式转换为xlsx格式
Python批量将xls格式转换为xlsx格式,使用下面代码即可import win32com.client as win32fname = r'excelname.xls'excel = win32.gencache.EnsureDispatch('Excel.Application')wb = excel.Workbooks.Open(fname)wb.SaveAs(fname+"x", FileFormat = 51) #FileFormat = 51 is for .xlsx ext
2020-10-12 21:00:45
2709
1
原创 【Hive】missing KW_END at ‘)‘ near ‘<EOF>‘
报错:missing KW_END at ')' near '<EOF>'原因:case when 后面没写end
2020-10-09 15:41:00
4137
原创 【Excel】单元格输入换行符、替换换行符
(1)在单元格中输入换行符方法:Alt+Enter(2)替换换行符:Ctrl+H 打开替换,然后在“查找内容”中输入Alt+1+0(按着不放),即可看到闪动的小黑点,即可替换ps:如果excel中有换行符,但是出现查找不到的情况,可以关掉所有的excel再打开要替换的试一下...
2020-10-09 15:35:47
7555
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人