Asher117-CSDN博客

原创【Python】Gensim安装好后使用报错

这里写自定义目录标题Gensim报错解决办法Gensim报错首次安装Gensim扩展包后，导入扩展包直接报错，如下import gensimRuntimeError: Compiled extensions are unavailable. If you've installed from a package, ask the package maintainer to include compiled extensions. If you're building Gensim from sour

2021-11-10 14:51:34 4116 9

原创【Win10】解决WLAN不见了，只有飞行模式开关，网络适配器只有以太网，无线网卡隐藏了，设备未连接问题

含泪记录win10系统，无法连接无线网络问题，在准备重装系统前整好了，留下了不学无术的泪水！！！以下是试过的方法：（1）网络重置（2）cmd下执行netsh winsock reset（3）services.msc启动服务项（4）修复注册表（5）驱动精灵、360网卡驱动、官网重装无线网卡驱动对于我的问题而言，通通不好使！！！最后，解决方法：重启进入BIOS进入Advanced选择Network Stack将Disabled改成Enabledsave changes and ex

2021-01-19 14:09:36 25354 33

原创【Python】使用PdfFileMerger合并pdf时报错PdfReadError: Unexpected destination ‘/__WKANCHOR_2‘

在python中使用PyPDF2扩展包的PdfFileMerger函数合并pdf时，代码如下：merger = PdfFileMerger()input1 = open(r"2.pdf", "rb")input2 = open(r"3.pdf", "rb")merger.append(input1)merger.append(input2)# Write to an output PDF documentoutput = open(r"1.pdf", "wb")merger.write(ou

2021-01-12 16:02:51 2386

原创【Python】使用pdfkit报错：OSError: wkhtmltopdf exited with non-zero code 1. error:

在工作自动化过程中，有时需要使用Python的pdfkit包将URL或者str等转换成pdf文件，今天使用如下代码在将str转换为pdf时，代码如下：options = {'page-size':'Letter','margin-top':'0.75in','margin-right':'0.75in','margin-bottom':'0.75in','margin-left':'0.75in','encoding':"UTF-8",'custom-header': [('Accept-Enco

2021-01-12 16:00:20 4145 1

原创【Python】使用pdfkit将str或者URL转化为PDF时报错：OSError: No wkhtmltopdf executable found

在使用pdfkit.from_string或者pdfkit.from_file或者pdfkit.from_url将字符串、文件或者网页内容转化为pdf时，报错：OSError: No wkhtmltopdf executable found原因很明显，就是没找到可执行的wkhtmltopdf文件，也就是未找到wkhtmltopdf.exe文件。python的pdfkit扩展包使用时需要基于wkhtmltopdf.exe这个可执行文件才可运行，因此需要先安装wkhtmltopdf。对于windows

2021-01-12 15:58:00 3072

原创【Hive】内部表和外部表

内部表：Hive默认表，创建一个内部表，那么表将在HDFS中的特定位置创建。删除一个内部表，这个表的表数据和元数据都将从HDFS中删除。外部表：创建表时使用EXTERNAL关键字，删除外部表时，HDFS文件中的数据将保留。...

2021-01-12 15:52:33 232

原创【Python】绘制PR曲线

数据挖掘模型训练好了之后，对于二分类问题，可以预测每个测试样本属于某个类别的概率，当我们设置不同阈值时，将得到不同的P值（Precision，查准率）和R值（Recall，查全率）基于此，可以绘制PR曲线，python绘制PR曲线比较方便。首先，可以使用precision_recall_curve函数得到#选择测试数据import pandas as pddf = pd.read_csv('file_name.csv')X = df[df.columns[:-1]]y = df[df.co

2021-01-12 15:50:12 7729 4

原创【Python】操作word文档

#导入相关扩展包import docxfrom docx.enum.text import WD_ALIGN_PARAGRAPH#设置对齐格式from docx.shared import Pt#设置字体大小from docx.shared import Inches#设置缩进,图片大小等from docx.oxml.ns import qn#（1）写入word文件#首先，创建一个Document对象，即word文档doc = docx.Document()#添加一段文字p1 =

2020-12-21 23:32:35 559

原创【Python】plt.savefig()保存图片不完整，x轴标签被截断

今天在用Python的plt.savefig()函数保存图片到本地时，发现保存下来的图片不完整，x轴标签被截断了。经过一番搜索，找到了解决方法：加上参数bbox_inches = 'tight'即可：plt.savefig(r"figure.png",bbox_inches = 'tight')...

2020-12-21 23:30:12 12898 3

原创【Python】ParserError: Error tokenizing data. C error: Expected 1 fields in line 144, saw 4

Python使用pd.read_csv报错ParserError: Error tokenizing data. C error: Expected 1 fields in line 144, saw 4解决方法：pd.read_csv(path,sep='\t')

2020-12-21 23:27:35 2035

原创【Python】获取excel所有的sheet名称

import pandas as pdpath = r"excel_file.xlsx"xlsx = pd.ExcelFile(path)xlsx.sheet_names #输出所有的sheet名称

2020-12-21 23:25:15 3101 3

原创【Jupyter】快捷键

Enter : 转入编辑模式Esc : 退出编辑模式，进入命令模式Shift-Enter : 运行本单元，选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元，在其下插入新单元1 : 设定 1 级标题2 : 设定 2 级标题3 : 设定 3 级标题4 : 设定 4 级标题5 : 设定 5 级标题6 : 设定 6 级标题Up : 选中上方单元Down : 选中下方单元A : 在上方插入新单元B : 在下方插入新单元X : 剪切选中的单元F：查找、替

2020-12-21 23:24:17 318

原创【Hive】Both left and right aliases encountered in JOIN

执行Hive语句报错：Both left and right aliases encountered in JOIN报错原因:在join的on条件中添加了不相等条件解决方法：把不相等条件放到where中即可

2020-12-21 23:23:19 678

原创【Hive】unsupport subquery expression

hive报错unsupport subquery expression表示不支持子查询，可以改用left join方式

2020-12-21 23:21:03 1487

原创【Python】补齐缺失日期

有DataFrame类型数据data，其中有index列为日期，另有value列，补充缺失日期列index代码如下：import pandas as pdimport datetime#创建DataFrame数据，包括index列和value列，其中index列为日期，但是格式为string格式data = pd.DataFrame(data={'index':['2020-10-09','2020-10-10','2020-10-17','2020-10-15'],'value':range(4

2020-12-21 20:03:31 6701 1

原创【Linux】复制文件前n行、后n行

使用head或者tail重定向如复制文件前1000行：head -n 1000 filename1 > filename2

2020-12-21 19:58:36 3494

原创【Linux】查看文件行数、字数

wc [选项] 文件-c 统计字节数-l 统计行数-w 统计字数-m 统计字符数

2020-12-21 19:56:20 883 1

原创【Python】绘制并列柱状图

如下代码：#导入扩展包import matplotlib.pyplot as pltimport numpy as np#构造数据y1 = [1,4,6,8,9,4,3,8]y2 = [2,5,9,5,3,2,7,4]x = np.arange(len(y1))#设置柱状图的宽度width = 0.4#绘图plt.figure(figsize=(8,4))plt.bar(x=x,height=y1,width=width,label='Data1')plt.bar(x=x+

2020-12-21 19:51:10 8024 4

原创【Python】plt.bar绘制柱状图参数详解

bar(x, height, width=0.8, bottom=None, ***, align='center', data=None, **kwargs)x 表示x坐标，数据类型为int或float类型，height 表示柱状图的高度，也就是y坐标值，数据类型为int或float类型，width 表示柱状图的宽度，取值在0~1之间，默认为0.8bottom 柱状图的起始位置，也就是y轴的起始坐标，align 柱状图的中心位置，"center","lege"边缘color 柱状图颜色ed

2020-12-21 19:48:48 26655 1

原创【MySQL】float数据类型显示数据后几位不准确

解决方法：将数据类型改为bigint类型即可更改数据类型语句：alter table table_name modify column column_name 数据类型;

2020-12-21 19:44:47 673

原创【MySQL】Error 1264: out of range value for column

mysql更改数据类型或者插入数据 Error 1264: out of range value for column这是由于mysql数据长度限制

2020-12-21 19:33:03 1193

原创【Hive】向下取整，向上取整，四舍五入

floor函数向下取整select floor(1.2)1ceil函数向上取整select ceil(1.2)2round函数四舍五入select round(1.283,2)1.28

2020-12-21 19:25:24 1463

原创【R语言】绘制权重散点图

library("plotly")plot_ly(data = df, x = ~age, y = ~income, size = ~weight)

2020-12-20 16:50:21 1073 1

原创【R语言】绘制权重直方图

library("plotrix")weighted.hist(x=df$feature,w=df$weight,breaks=seq(1,100,length.out=11),freq=F,col=rainbow(11))#weighted.hist函数参数x为绘制直方图对象，w为权重

2020-12-20 16:39:45 1402

原创【R语言】创建空的dataframe

如下：df = as.data.frame(matrix(nrow=0,ncol=3)) #创建一个3列的空对象

2020-12-20 16:36:56 18525

原创【R语言】data.frame 分组计数、求和等

df为1个data.frame对象，有stratum和psu两列，这里统计stratum列计数方法1：cnt = table(df$stratum)方法2：cnt = tapply(df$psu, INDEX=df$stratum, FUN=length)在方法2的基础上，只要改变FUN函数就可以实现分组求和、求均值等功能，如下分组求均值:tapply(df$psu, INDEX=df$stratum, FUN=mean)#（等价于python中的df.groupby('stratum'

2020-12-20 16:35:23 12862

原创【R语言】pps采样

pps采样，全称是Probability Proportionate to Size Sampling，用R进行pps采样代码如下：pik <-inclusionprobabilities(data$psu,n=2)s <- UPmultinomial(pik)sam <- data[s!=0,]

2020-12-20 16:22:08 3119 1

原创【R语言】对data.frame的行随机抽样

df是R中的data.frame对象，对其行进项无放回随机采样，直接使用以下代码即可：df[sample(nrow(df), 10), ]

2020-12-08 20:47:34 11459 3

原创【R语言】随机采样

R语言中，进行随机采样可以使用sample函数，具体如下：#函数：sample(x, size, replace = FALSE, prob = NULL)#参数含义x:向量，表示抽样的总体，或者是一个正整数，表示样本总体为1~nsize：为样本容量，即要抽取的样本个数，是一个非负整数replace：表示是否为有放回的抽样，是一个逻辑值，默认为FALSE，即默认为无放回抽样；prob：为权重向量，即x中元素被抽取到的概率，是一个取值0~1的向量，其长度应该与x的长度相同。参考链接：http

2020-12-08 20:29:21 3227

原创【R语言】rpois函数参数详解

想要了解更多可以去官方文档查看，链接。rpois函数主要用于产生泊松分布的随机数，其中参数n代表产生数据个数，参数lambda表示产生一组数据的（非负）均值，具体如下：rpois(n, lambda)n：number of random values to return.lambda：vector of (non-negative) means....

2020-12-05 15:00:48 8405

原创机器学习在癌症数据集上的应用实践

在本文中，我们一起学习如何将机器学习应用于癌症数据集。1.摘要支持向量机（SVM）是机器学习中最流行的有监督学习算法之一。许多研究人员都通过实践证明了该算法的优异性。SVM既可以应用于回归问题，也可以应用于分类问题，本文以癌症数据集为例，描述了SVM在分类问题上的应用。2.简介SVM算法的应用十分广泛，目前已经应用到医学研究，面部识别，垃圾邮件分类，文档分类，手写识别等方面。在医学研究领域，SVM已被从业人员应用于：白细胞分类癌症预测基因分类部分研究人员声称，SVM在这些研究方面比逻

2020-11-24 19:30:45 4927 3

原创为了学爬虫，我用三步爬取了大佬崔庆才爬虫相关文章，并保持为pdf学习

为了学习网络爬虫，我爬取了网络爬虫届大佬崔庆才的所有Python博客，并转换成了pdf，以便后续学习。1.代码思路获取所有博客的URL获得每篇博客的html内容，并转化为pdf文件合并pdf文件2.获取所有博客URL首先，通过崔老师的博客网站可知，目前Python博客内容包含7页，如下图通过这些博客分类页面，很方面就能获得每篇博客的网址，代码如下：#获取所有URLdef get_url(): url_list = [] for i in range(7,0,-1):

2020-11-22 17:05:18 547 2

原创【Linux】文件属性查看详解

使用ls -al 查看当前目录下所有文件属性，输出如下：drwxr-xr-x 3 root root 4096 Sep 23 19:43 .dr-xr-x---. 32 root root 12288 Oct 12 14:28 ..-rw-r--r-- 1 root root 0 Sep 18 15:56 attrtestdrwxr-xr-x 3 root root 4096 Sep 22 11:29 Asher-rw-r--r-- 1 root root 52

2020-10-14 20:57:24 772

原创【Hive】distinct on different columns not supported with skew in data

今天运行hive时候报错，如下：distinct on different columns not supported with skew in data由于对多个列执行去重操作导致，如以下代码：select id, count(distinct col1) as cnt1, count(distinct col2) as cnt2 from table_name group by id报这个错误的原因与hive的环境变量hive.groupby.skewindata相关默认情况下

2020-10-14 20:49:04 3143

原创【Python】移动、复制文件到另一个文件夹、删除文件（夹）

引入shutil模块import shutil复制或移动到目的文件夹下面shutil.copy('demo.txt','新的文件夹')file1.txt 移动到新的文件夹下面shutil.move('file1.txt','新的文件夹')复制或移动到目的文件夹下面之后，重命名shutil.copy('demo.txt','新的文件夹/new1.txt')shutil.move('file2.txt','新的文件夹/new2.txt')导入os模块import os删除 f

2020-10-14 20:45:50 24322

原创【python3】写入excel文件（设置字体型号、边框样式、单元格对齐方式、合并单元格，列宽、行高等）

主要使用xlwt扩展包import xlwt创建workbook（Excel文件）workbook = xlwt.Workbook(encoding = 'utf-8')添加sheetsheet = workbook.add_sheet('sheetname')写入数据#格式：sheet.write(m,n,data)，表示在第m行n列写入数据data#注意：m和n从0开始sheet.write(1,0,'第一行第0列')合并单元格，并写入数据#格式：#sheet.write_

2020-10-12 21:11:16 2223

原创【Python】将xls格式转换为xlsx格式

Python批量将xls格式转换为xlsx格式，使用下面代码即可import win32com.client as win32fname = r'excelname.xls'excel = win32.gencache.EnsureDispatch('Excel.Application')wb = excel.Workbooks.Open(fname)wb.SaveAs(fname+"x", FileFormat = 51) #FileFormat = 51 is for .xlsx ext

2020-10-12 21:00:45 2961 1

原创【Hive】missing KW_END at ‘)‘ near ‘＜EOF＞‘

报错：missing KW_END at ')' near '<EOF>'原因：case when 后面没写end

2020-10-09 15:41:00 5250

原创【Excel】画图快捷键

选中数据，然后Alt+F1即可。

2020-10-09 15:37:18 691

原创【Excel】单元格输入换行符、替换换行符

（1）在单元格中输入换行符方法：Alt+Enter（2）替换换行符：Ctrl+H 打开替换，然后在“查找内容”中输入Alt+1+0（按着不放），即可看到闪动的小黑点，即可替换ps：如果excel中有换行符，但是出现查找不到的情况，可以关掉所有的excel再打开要替换的试一下...

2020-10-09 15:35:47 10905 1

空空如也

空空如也