自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

凡客的博客

互相学习,学有所得,学以致用!

  • 博客(24)
  • 资源 (5)
  • 收藏
  • 关注

原创 常用的在线翻译工具及实例对比初探

1. 有道翻译有道是上学和工作以来最常用的翻译工具了,其主打免费、即时的多语种在线翻译,翻译效果也确实不错。在线翻译_有道 (youdao.com)2. 百度翻译百度的用户数自不必多说,因此它带有自己的翻译工具也是正常的,翻译效果诸君自己尝试。百度翻译-200种语言互译、沟通全世界! (baidu.com)3. 谷歌翻译谷歌翻译也是非常常用的在线翻译工具,本人是在上学时翻译论文时用到的,效果也还可以。Google 翻译4. 腾讯翻译君其主打全新人工智能翻译,可以尝试.

2022-03-21 10:57:36 1020

原创 对入门使用者比较友好的视频剪辑工具推荐

推荐三款尝试过的视频剪辑工具,不见得多高级,但是简单易用,对初学者很友好。

2022-03-17 11:11:18 595

原创 如何将中文文档语料训练成词向量

准备需要训练的原始语料在这里,我们采用docx文档作为原始语料:如图所示,这些文档是我用到的语料。将语料转换为txt文件格式代码如下:import osimport docxdef docx_to_txt(): # 打开文件 files = os.listdir('./corpus') with open('corpus.txt', 'w+', encoding='utf-8') as f: for file_name in file

2020-12-22 21:33:47 2319 7

原创 分享一个用python实现将pdf转txt的代码

问题背景:有时候需要用到pdf文件中的信息,但是pdf不易编辑,格式有局限性,需要转成txt这样的格式。目标:将给定pdf文件中的文本信息(暂时不考虑表格、图片等)抽取出来,写入txt文件中。主要工具:python的pdfminer3k库(pdfminer的python3端口,pdfminer是一个用于从文档中提取信息的工具)代码:import importlibimport sysimport timefrom pdfminer.pdfparser import P

2020-05-30 16:16:34 5920 4

原创 java中如何将json字符串解析成json对象

最近在java开发中遇到了将json字符串解析成json对象的问题,经多次尝试后找到了与自己java版本匹配的相应方法。目标:将给定的json字符串解析为相应的json对象。环境:java8代码:String jsonString = "{name:'zzd',age:'20',sex:'male',haha:'ab'}";JsonObject json = JsonParser.parseString(jsonString).getAsJsonObject();System.

2020-05-25 10:33:40 1547

原创 neo4j安装后如何启动及algo包的配置

以windows为例:1. 将neo4j的安装目录“.../bin”添加到系统变量。(如果不添加的话,则需要每次切换到相应的bin目录下,然后启动neo4j)2. 打开cmd或Anaconda Prompt,输入命令:neo4j.bat console,即可启动。(linux下命令为:./neo4j console)3. 也可将neo4j注册成服务,输入命令:neo4j install-service。4. 开启neo4j服务:neo4j start 停止neo4j服务:neo4j..

2020-05-18 15:56:47 1772

原创 python实现将excel / csv数据导入neo4j

问题场景:neo4j是学习知识图谱很好用的一个工具,在手动构建知识图谱时,可以通过python代码来实现读取excel或csv数据,并将数据导入neo4j库中。数据示例:代码示例:# -*- coding: utf-8 -*-from py2neo import Graph, Node, Relationship, NodeMatcherimport pandas as ...

2020-03-24 19:47:18 7498 4

原创 python实现将多个文件内容合并到一个文件

问题场景:有时候需要将数十个甚至上百个txt或其他格式的文件内容合并到一起,如果一个个复制粘贴显然太费功夫,因此可以用代码实现文件内容的合并。代码示例:import osimport linecachedef combine_file(): # 读取指定路径下的所有文件并放入到列表中 root = input('please input the dir:')...

2020-03-16 15:51:39 13219 9

原创 如何将flv格式的视频转换为mp4格式

flv格式到mp4格式的转换有多种方法,在这跟大家分享其中一种,就是利用ffmpeg这一开源工具。以windows 10系统为例,步骤如下:一、下载ffmpeg下载的地址为:https://ffmpeg.zeranoe.com/builds/二、解压缩将下载后的压缩包,解压在自定义的路径下三、新建bat文件在解压后的bin文件夹下,新建文本文件,内容为“cmd”,将文件...

2019-12-29 13:56:00 784 1

原创 分享一个生成包含n行自定义时间字段的文件的python代码

目的:生成包含自定义时间,如:2019/12/14 12:15 这样的字段。方法:主要是采用python的random模块生成随机数,加上字符串拼接的方法,用循环语句生成多行文件。代码示例:# coding:utf-8import randomf = open('自定义时间.csv','w')for i in range(1000): f.write('201...

2019-12-14 12:52:52 118

原创 如何在Excel中选中任意矩形区域

不知道是不是有小伙伴在使用Excel时也遇到过不知道怎么选定某一区域这一问题,因为如果是小区域,直接按住鼠标左键拖动就可以了,但如果要选择的区域较大,比如有几千上万行列的话,拖动时很可能手一滑就得重新来,因此在这跟大家分享一下如何快速选择任意指定区域。一、打开Excel,新建一个工作表。二、确定起始和中止单元格。如图,我们选取A4单元格为起点,K23单元格为终点。在实际中,区...

2019-11-26 15:59:21 3823

原创 一个简单的切分数据集的python代码

数据集:一个中文的酒店评论数据集(一万多条数据,正负向情感标注)任务:切分为训练和发展集数据集示例:代码:import osimport pandas as pdfrom sklearn.utils import shuffleif __name__ == '__main__': path = "temp/" pd_all = pd.read_csv...

2019-11-21 17:14:01 1667

原创 推荐两款自己常用的Python代码编辑器

一、Notepad++严格来说,Notepad++是一款文本编辑器,但用的多了,就也习惯拿来查看和编写python代码了。其界面很简洁清晰,显示文本或代码时很一目了然。不足之处是在编写python代码时,不会给出错误提示,也无法直接编译运行。二、PyCharmPyCharm 是一款专业的IDE工具,功能强大。其编写代码非常方便,不仅会提示补全之前输过的代码词,还能自动缩进...

2019-10-28 10:37:44 1048

原创 如何在WPS 2019中将图片背景设置为透明

首先,找一些背景色相对比较单一的图片,格式为jpg或png都可以。如下所示,为网上找的一张汽车图片:然后,用wps 2019新建word文档,打开,在“插入”选项卡下选择“图片”菜单下的“本地图片”,将所找的图片插入word文档。然后在“图片工具”选项卡中,选择“抠除背景”菜单下的“智能抠除背景”。在左下角有操作提示,根据操作提示,只需选择采样点,并拉动右下角的抠除程...

2019-10-18 16:28:34 9368

原创 一些github项目分享

NLP刘知远的NLP研究入门之道:https://github.com/zibuyu/research_tao自然语言处理进展跟踪:https://github.com/sebastianruder/NLP-progress影评情感分析(LSTM+attention):https://github.com/bingshen/kaggle_emotion_classify信息抽取:...

2019-09-30 17:22:49 231

原创 python实现中文的繁简转换

我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/安装命令:p...

2019-09-26 10:39:28 4207 4

原创 如何读取csv文件并将其转化为tsv文件

csv:逗号分隔符文件tsv:制表分隔符文件二者本质上都属于类文本文件,一般用excel和文本编辑器均可打开。如果是在程序中读取,并进行相互转化,可以用pandas这个python库。以下给出一个代码示例:csv-tsv.pyimport pandas as pdfrom sklearn.utils import shuffle # 用于数据的随机排列,也可不用...

2019-09-17 15:05:48 7452 2

原创 介绍一个获取金融相关数据的包Tushare

朋友想做一个金融方面的知识图谱,搜索了半天,发现有一个工具可以获取大量金融数据-Tushare。它的使用对象有多种,如量化投资分析师(Quant)、对金融市场进行大数据分析的企业和个人、开发以证券为基础的金融类产品和解决方案的公司、正在学习利用python进行数据分析的人。但Tushare不是普通炒股者用的软件,而是为那些有兴趣做股票期货数据分析的人提供pandas矩阵数据的工具,至于能不能用来炒...

2019-09-16 19:29:25 201

原创 bert模型代码运行文档

#1. 了解Bert是什么,找到原始文章和源码 BERT,全称是Bidirectional Encoder Representations from Transformers,是一种预训练语言表示的新方法。 Bert是2018年由Google AI团队开源的NLP模型,引起业内巨大反响,因为其在多项NLP任务上均超过当前的state-of-the-art。 Bert的原始论文为《BE...

2019-08-27 19:14:32 1084

原创 使用python中wordcloud模块生成词云图

词云图直观形象、清晰明了,可以展示很多信息。1. 安装wordcloud模块pip install wordcloud2. 下载相关代码资源包并解压wget http://github.com/amueller/word_cloud/archive/master.zipunzip master.ziprm master.zipcd word_...

2019-08-17 17:49:59 972

原创 参考文献的快速引用

我们在写论文或报告时,需要引用参考文献,那么由于参考文献有固定的格式,如果单靠手动输入确实过于麻烦,因此我们可以直接选择理好格式的参考文献引用。1. 知网中引用在知网中搜索到所需的文献,选择“导出参考文献”,如下图所示:选择要导出的参考文献格式,常用的是GB/T 7714-2015,如下图所示,选择“导出”。2. 谷歌学术中引用在谷歌学术中搜索所需文献,如下图所示:...

2019-08-08 20:55:11 4726

原创 Windows下如何打开CSV文件

Windows下如何打开CSV文件CSV文件,即逗号分隔符文件,是一种存储文本数据的常用文件形式。使用Microsoft Excel打开微软的Excel是我们常用的办公软件之一,它可以用来打开CSV文件。如下图所示:可以看到,用Excel打开的CSV文件,有较好的视觉体验,内容分明,但其隐藏了文本中的逗号。使用Notepad++打开Notepad++是一种非常好用的文本编辑器,它也可以...

2019-08-01 16:43:11 3226

原创 windows下如何创建bat文件

bat文件是dos下的批处理文件,它将多个命令汇集在一个文件中,双击该文件或者在dos下输入文件名,即可执行其中命令,对一些重复性的、难以记忆的命令来说,bat文件是一个很方便的选择。1. 桌面右击,选择“新建”——“文本文档。2. 用Notepad++打开,输入所需执行的命令,选择“文件”——“另存为”,将保存类型设置为“Batch file",即可成功创建后缀名为.bat的文件。...

2019-07-19 20:25:23 13507

原创 windows下如何将python添加到Path环境变量

我们以windows 10系统为例。1. 首先选中桌面“此电脑”图标,单击鼠标右键,在弹出快捷菜单中选择“属性”打开如下所示对话框。2. 在对话框左边栏中,单击“高级系统设置”,接着在弹出窗口中,选择“高级”选项卡,然后单击“环境变量”按钮,找到“Path"。3. 单击“编辑”按钮,在弹出对话框中选择“新建”按钮,添加python路径即可。注:最好将Python 安...

2019-07-16 20:33:34 23183 4

中文分词工具.docx

七种中文分词工具的实验尝试与对比,具体使用时需结合场景选择。

2021-03-09

Coling2016.pdf

NLP领域顶会,The 26th International Conference on Computational Linguistics 会议论文集。

2019-09-30

2800首唐诗的情感标注

一共是2800首唐诗,情感标注为三类,-1为消极,0为中性,1为积极。由于是人工标注,与标注者的诗歌鉴赏水平有关,准确性有待验证。

2019-09-05

twitter预处理和bert分类代码.rar

压缩包中包含两个代码,一个是对twitter数据进行预处理的,另一个是个人修改的用bert对twitter数据分类的run_classifier.py代码,希望可以帮助到大家。

2019-08-27

data4000.tsv

一共是4000条唐诗文本数据,进行了二分类情感标注,1表示积极情感,0表示消极情感。每一条唐诗数据是两句诗,个人感觉两句相对才能表达出稍微完整的情感倾向。

2019-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除