自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (1)
  • 收藏
  • 关注

原创 Python获取列表中最大/最小的n个元素及索引

方法一:sorted函数方法二:heapq库

2022-03-10 21:14:08 3127

原创 连接GitHub报错git@github.com: Permission denied (publickey)解决方法

解决方法:重新添加私钥 ssh-add -K ~/.ssh/id_rsa_github

2022-01-12 17:06:10 808

原创 Python Selenium自动化导出新版WOS(web of science)检索结果

2022.1.6旧版web of science正式下线了,这里是对**新版**网站重新开发的自动化导出代码。**使用本代码需要:** - 国内大学学生账号(登录wos使用) - 火狐浏览器 - python以及selenium包 - geckodriver 0.24.0 (放在爬虫代码同一个文件夹下)

2022-01-07 12:33:24 6033 40

原创 牛客网mysql题解及知识点记录

看清表名,列名。1 查找最晚入职员工的所有信息select * from employees# order by hire_date desc# limit 1where hire_date=(select max(hire_date) from employees)2 查找入职员工时间排名倒数第三的员工所有信息select * from employeeswhere hire_date=(select hire_date from employees order by hire_date

2021-08-20 22:35:13 604

原创 「Python数据分析」pyechart绘制网络图

背景想学习用pyechart画网络图(Graph)。参考:官方文档https://pyecharts.org/#/zh-cn/intro官方示例:https://github.com/pyecharts/pyecharts-gallery遇到的第一个问题:运行不报错,但是打开生成的html,标题可以显示,没有图形。查找资料发现可能是因为找不到静态资源文件。这个问题参照官方文档就可以解决:资源引用。其中,pyecharts-assets 项目保存到能找得到的文件夹都行(最好在自己常用的画

2021-04-28 19:58:24 2384 4

原创 Mac远程连接Linux服务器以及文件传输

1、连接Mac终端自带ssh服务,可以直接连接。(windows下要先用apt-get安装ssh)# ssh 服务器名@服务器IPssh myserver@192.168.xx.xx使用密钥连接# ssh -i 私钥路径 服务器名@服务器IPssh -i ~/.ssh/id_key myserver@xx.xx.xx.xx2、远程root登陆(修改权限)Ubuntu默认不允许远程root登陆,可以修改配置文件打开权限。sudo vim /etc/ssh/sshd_config方法:

2021-03-31 10:22:58 2260

原创 我们使用的云服务究竟是什么?从虚拟化到云计算

云服务的意义:提高资源利用效率1、有哪些资源?计算资源:CPU和内存存储资源:硬盘,也就是存储空间网络资源:比如给用户分配的IP地址2、弹性(灵活性):时间灵活性:随要随用(不用自己配置资源)空间灵活性:想用多少就能用多少(不用担心需要配置多大的资源)3、云服务提供商如何实现这种弹性?第一:虚拟化第一阶段:虚拟机+云管理平台虚拟机(如VMWare,KVM) 是硬件的虚拟化,达到操作系统级的隔离。虚拟机中运行独立的操作系统,使用主机分配的计算、网络、存储资源。相当于一台计算机硬件上

2021-03-27 16:40:05 386

原创 各系统下scikit-learn、pytorch、tensorflow安装命令

大部分包都可以用pip安装pip install 包名记录几个机器学习、深度学习中不能直接这么安装的常用包。scikit-learn安装命令https://scikit-learn.org/stable/install.htmlpytorch安装命令https://pytorch.orgtensorflow不同系统各python版本对应安装文件https://pypi.tuna.tsinghua.edu.cn/simple/tensorflow/安装命令pip install 文件存储

2021-03-02 10:36:29 320

原创 Python Pandas中dataframe常用操作(创建、读取写入、切片等)

Series & Dataframe一个感觉描述得比较好的示意图:在一些涉及到批量处理二维列表中数据的场景中,使用dataframe会简便很多。而只有一维数据的dataframe就是series啦。感觉dataframe用的多一些,就先记录dataframe吧。import pandas as pdDataframe1. 创建Dataframe空dataframe# 创建空dataframe>>> df = pd.DataFrame()>>&

2021-03-01 18:20:25 111458 6

原创 Python Pandas中的Series(创建、replace、map、append)

SeriesSeries是dataframe中的基本数据结构,也可以认为是一维的dataframe。1. 创建Series可以传入列表或者是字典来创建 Series。如果传入的是列表,默认索引为 [0,1,2,…] 。如果传入的是字符串类型的数据,Series 返回的dtype是object;如果传入的是数字类型的数据,Series 返回的dtype是int64>>> food = {'one':'apple','two':'egg','three':'watermelon

2021-03-01 18:08:09 1846

原创 Python Numpy常用操作合集(创建、计算、拼接、切片等)

list,numpy array、series、dataframe区分:numpy中的ndarray,相当于python自带的list。而pandas中对不同维度的数组有区分:series相当于一维数组,dataframe是多维数组。这部分下一篇再做记录,这里不再赘述。本文记录numpy中的一些常见数据操作。1. array()方法创建数组首先厘清一个概念:array是一个函数,用来创建数组对象,创建出的对象类型为ndarray。>>> a = np.array([1,2,3

2021-02-26 17:53:38 446 1

原创 「Python数据分析」社会网络:networkx批量计算网络指标案例

从原始数据一步步得到合作网络之后,需要计算一些网络指标才能的到一些有意义的分析结论。networkx是python中常用的社会网络分析包,里面支持各种图以及非常多指标计算函数。官网:https://networkx.org中文网站:https://www.osgeo.cn/networkx/index.html案例接下来是由合作网络中的边作为原始数据,计算各种网络指标的一个简单示例。包括:生成网络图、计算指标、提取计算结果、存储五个基本步骤。有更多、更复杂的需求也都可以在这个框架基础上进行二次开

2021-02-05 01:19:44 2674 2

原创 Mac下matplotlib显示中文(不用安装字体)

matplotlib绘图中文显示小方格,网上一大堆方法要下载simhei.ttf字体,还要修改matplotlib设定balabalabala,我一步步照做了,结果,没用。然后发现:matplotlib里其实有支持的中文字体啊!直接调用就行了。查看matplotlib支持的字体:%python>>> from matplotlib.font_manager import FontManager>>> fm = FontManager()>>&gt

2020-12-09 18:18:54 2890 8

原创 EndNote X9 在macOS Catalina下安装完找不到客户端/打不开

下载安装了某大学的EndNote X9,顺利安装之后发现word里插件有了,但是却没有桌面客户端?疑惑。原因:需要更新解决方法:step1:在endnote官网下载一个更新包http://download.endnote.com/updates/19.0/EndNoteX931UpdateInstaller.zipstep2:打开terminal。(默认在“启动台–>其他–>终端”)输入:/(“所在文件夹”)/EndNote\ X9.3.1\ Update\ Install

2020-11-25 14:19:37 2775

原创 英文pdf翻译为中文(word+google浏览器即可)

同学问我有没有把英文pdf直接转中文的方法,之前没遇到过这种需求,这次意外发现了一种很方便的方法,就记录一下。不需要额外下载软件,只需word+google chrome就行。简单来说就是:用word软件打开pdf–>另存为.html文件–>用Google浏览器打开–>翻译为中文详细步骤:step1: word软件打开pdfstep2: 另存为.html文件保存时选择格式为“网页(.htm)”。得到.html文件。(同时生成一个.fld文件夹不用管)step3: 用

2020-11-25 13:54:24 9514 5

原创 python列表点对点拼接方法 zip()/map()函数

两个列表:list1 = ['A','B','C','D']list2 = [1,2,3,4]希望的拼接方式:‘A’–>1,‘B’–>2,‘C’–>3,‘D’–>4拼接方式为元组tuple:zip()list3 = list(zip(list1,list2))print(list3)结果为一个列表,列表中每个元素为元组:[('A', 1), ('B', 2), ('C', 3), ('D', 4)]拼接方式为列表list:map()list4 = list(

2020-11-10 15:39:20 538

原创 macOS升级到python3.8过程中报错“.bash_profile does not exist”

把系统默认python升级到python3.8(下载地址:python官网)。安装完成后,想要把alias python="/Library/Frameworks/Python.framework/Versions/3.8/bin/python3.8"写入用户配置文件的过程中报错:(base) @JingdeMacBook-Pro ~ % open ~/.bash_profileThe file /Users/apple/.bash_profile does not exist.原因:Ca

2020-10-16 18:32:32 8062 3

原创 Python 超过最大递归次数(RecursionError: maximum recursion depth exceeded while calling a Python object)

在用递归实现一个最短路径算法的时候遇到报错:RecursionError: maximum recursion depth exceeded while calling a Python object查了一下发现是因为Python有递归次数限制,默认最大次数为1000。这是python设置的一种机制用来防止无限递归造成Python溢出崩溃, 最大递归次数是可以重新调整的。调整方式如下:import syssys.setrecursionlimit(2000) # set the maximum

2020-07-29 01:05:34 1438

原创 修改字符串里的时间格式(.replace()、.strptime()+.strftime())

把“2019/7/2”这样的时间转换为“20190702”或“2019/07/02”这样的标准形式的方法。使用replace.replace()只能替换分隔符,不能补零。time_to_convert = "2019/7/2"# 用replace转换time1 = time_to_convert.replace("/","")time2 = time_to_convert.replace("/","-")结果2019722019-7-2使用.strptime()+.strftime(

2020-07-27 23:39:00 1480

原创 Mac配置python开发环境之anaconda

今天给一台新Mac配置python开发环境,用anaconda很简单。anaconda下载地址:anaconda官网下载地址拉到最下面,选择需要的版本:挂VPN下得更快。从这个网址下载一开始60k/s左右,然后把vpn打开再下就有2M/s左右。如果是需要上图MacOS-Python3.7下的图形安装工具,可以直接从这个链接下:(我用的从官网下的安装包)链接: https://pan.baidu.com/s/1Q0tR5nHRudNc0FZLHa5AQw 密码: kbhv下完双击安装。一直

2020-07-25 00:38:55 1376

原创 「Python数据分析」 使用邻接表存储共现/合作网络(无向图)

存储合作网络/图的一种形式是邻接表。由于网络大多是稀疏的,因此这种存储方式相比邻接矩阵空间效率更高。下面是从原始数据里构建邻接表的代码实现。构建邻接矩阵见:get_cooperate_matrix()使用的数据形式示例:其中F列是作者信息,其他列包含其他信息。输入形式:先把数据行读取到列表中。# 二维列表形式的数据co_list = [ ["AA | BB | CC | DD",2019], ["EE | BB | FF ",2018],

2020-07-22 22:04:32 1716

原创 Python运行过程中打印/输出当前系统时间

调用time里的方法 .strftime()。得到的直接是字符串格式的时间,可以直接print。代码示例:import timecurrent_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())print(current_time + " : 已计算 %d"%(times*10)+ "%...")结果示例:2020-07-21 21:25:18 : 已计算 10%...2020-07-21 21:25:18 : 已计算 2

2020-07-22 01:20:11 1068

原创 「Python数据分析」 社交网络:共现/合作网络(无向有权图)的节点列表、边列表

存储合作网络的一种形式是:节点列表+边列表。下面是从原始数据里构建这两种列表的代码实现。使用的数据形式示例:其中F列是作者信息,其他列包含其他信息。输入形式:# 二维列表形式的数据co_list = [ ["AA | BB | CC | DD",2019], ["EE | BB | FF ",2018], ["AA | GG | FF | HH | KK",2019], ["CC | DD | FF

2020-07-22 00:16:23 3019

原创 python openpyxl列表逐行写入excel文件

写入的数据形式:xlsx_list = [["AA", 2019], ["FF", 2018], ["KK", 2019], ["CC", 2020], ["BB", 2017], ["GG", 2018], ["DD", 2019], ["EE", 2018]]写入代码:这种方式如果写入的文件不存在,会自动创建文件。from op

2020-07-21 01:59:09 18626

原创 「Python数据分析」 社交网络:共现/合作网络(无向有权图) 生成邻接矩阵、共现矩阵

使用从数据库中导出的论文、专利数据,做作者/专利权人合作网络,实际上也就是共现网络。使用的数据形式示例:其中F列是作者信息,其他列包含其他信息。合作网络构建生成合作网络代码主函数:if __name__ =='__main__' : co_list = [ ["AA | BB | CC | DD",2019], ["EE | BB | FF ",2018], ["AA | GG | FF | HH | KK",2019],

2020-07-19 23:56:25 11917 8

原创 csdn代码段显示不完全

以前看只看博客的时候看到这种情况都以为是我网络的问题,现在自己试了发现是编辑器的问题。因为代码段显示的行数似乎是根据换行符个数确定的,因此如果代码段有一行代码比较长,显示出来要两行,但是因为没有换行符,这两行依然只记为一行,那么这整段代码的最后部分就会被截断了。import xlrddef test(): files = ["/Users/apple/Downloads/1.xlsx","/Users/apple/Downloads/2.xlsx","/Users/apple/Downloads/3

2020-07-12 20:32:02 2087

原创 「Python数据分析」 社会网络:无向有权图生成带权重的边列表(遇到浅拷贝的坑)

赋值、浅拷贝、深拷贝方法集合在文末。遇到的问题及解决方法先贴一开始犯错的代码。这个函数实现的功能是输入一个由边组成的二维列表,输出所有不重复的边以及权重(重复次数)。用于后续的社会网络分析与指标计算,因为是合作网络,所以不存在方向关系。具体输入输出格式见代码注释。def get_weighted_links(links): ''' links:是包含边的列表,[[节点1,节点2],...],边可以重复,重复次数记为权重 返回值:带权重的边列表,[[节点1,节点2,weight

2020-07-12 20:09:15 2762

原创 机器学习中的ROC曲线与AUC指标的意义与代码实现 & 与PR曲线的比较

ROC曲线与AUC指标是机器学习中的常用评价方法。ROC曲线与AUC指标理解混淆矩阵:TP = True Postive = 真正例(真阳性);FP = False Positive = 假正例(假阳性);FN = False Negative = 假负例(假阴性);TN = True Negative = 真负例(真阴性)。ROC曲线用来绘制ROC曲线的纵坐标是TPR(True Positive Rate),横坐标是FPR(False Positive Rate):指标意义

2020-07-11 16:48:01 1232

原创 ROC曲线与AUC指标理解

ROC曲线,也称受试者工作特征曲线,感受性曲线。用于研究X对于Y的预测准确率情况。ROC曲线涉及的几个术语名词:指标:ROC曲线最初是运用在军事上,当前在医学领域使用非常广泛,因此指标称“阴性”,“阳性”。名词说明特异性阴性人群中,检测出阴性的几率。也称真阴性率。误报率阴性人群中,检测为阳率的几率。也称假阳性率。(1 – 特异性)敏感度阳性人群中,检测出阳性的几率。也称真阳性率。假阴性率阳性人群中,检测为阴性的几率,也称假阴性率。ROC曲线意义:

2020-07-11 16:40:44 2443

原创 准确率(Accuracy)、精确率(precision),召回率(recall)理解

准确率(Accuracy)、精确率(precision),召回率(recall)以及一些衍生指标经常被用作机器学习/深度学习任务的评价标准。混淆矩阵准确率(Accuracy)指标计算准确率(Accuracy)( TP + TN ) / ( P +N )就是整体判断正确性,但是没有正确率这种说法。精确率(precision)与召回率(recall)指标计算精确率( precision )TP / ( TP+FP ) = TP / P召回率(r

2020-07-11 16:21:51 2532 2

原创 Windows/Mac Python写入文件名时的非法字符处理(OSError: [Errno 22] Invalid argument:)

问题在把数据处理结果按名称存储为文件时,文件名中有特殊字符会出现错误。主要是Windows系统。解决方法:替换title中非法字符。比如用“_”:re.sub('[\/:*?"<>|]','_',title)。举例Windows文件名和代码(以英文引号“”为例):import csvif __name__ =='__main__' : csv_list = [[1],[2],[3],[4]] # 要写入的行 name = '"HPC" ARCHITECH'

2020-07-11 12:56:04 2422

原创 Python csv的writerow()和writerows()区别

import csvwriterow()writerow()将一个列表全部写入csv的同一行。 csv_list = [1,2,3,4] with open("/Users/apple/Downloads/test.csv","w",encoding="UTF-8",newline="") as csvfile: writer = csv.writer(csvfile) writer.writerows(csv_list)结果:writerows()

2020-07-11 12:49:47 51533 2

原创 Python提取字符串中间部分(.partition())

方法使用.partition()函数。举例要提取的内容比如批量提取文件名中包含的年份:# 先把所有待提取的文件放入同一个文件夹folder = r"C:\Users\abc\Desktop\redo\demo\" # 文件夹路径# get_sortedlist是我自己定义的按顺序提取文件夹中文件路径的函数file_list = get_sortedlist(folder) 自定义函数的具体内容:get_sortedlist得到文件路径列表:注意Windows下即使定义folder路径

2020-07-11 00:00:38 8414

原创 按文件名顺序读取文件夹中的文件路径并存为列表

函数自定义的实现顺序读取文件路径的方法。坑点:mac文件夹中的隐藏文件'.DS_Store',如果不去掉后续数据处理过程中很可能出现问题。def get_sortedlist(dir): '''按排列顺序提取文件夹中的文件''' Filelist = [] file_list = os.listdir(dir) sorted_list = sorted(file_list) # 逆序 # sorted_list = sorted(file_list,revers

2020-07-10 23:51:08 1211

原创 「Python数据分析」CSV读取与写入的常见问题(空行、BOM、r/w/a模式、指针)

1. 多余的空行原因python正常写入文件的时候,每行的结束默认添加’\n’,即0x0D,而writerow命令的结束会再增加一个0x0D0A,因此对于windows系统来说,就是两行。采用’ b’参数,用二进制进行文件写入,系统默认是不添加0x0D的(故python2.x中的解决方式是使用“wb模式打开文件”,该方法python3.x中已不适用,会报错如下)。TypeError: a bytes-like object is required, not 'str'解决方法打开文件时添加new

2020-07-10 00:39:01 2771 3

原创 Python多进程/多线程 multiprocessing apply_async报错“left &#62 0” AssertionError

Python multiprocessing apply_async报错“left > 0” AssertionError我使用的python版本:python3.7.3。在处理一份较大的数据文件(17G)时,无论使用多进程或多线程均报此错误。在任务管理器里查看内存是完全足够的。查了很久才找到原因。实现多进程/多线程时调用的类:进程池:from multiprocessing import Pool线程池:from multiprocessing.pool import Thread

2020-07-09 15:28:28 1647

手写数字识别MNIST数据集及卷积神经网络代码(含注释)

手写数字识别MNIST数据集,内含t10k-images-idx3-ubyte.gz等四个压缩文件以及卷积神经网络识别代码。

2019-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除