Python编程
LeoWood
这个作者很懒,什么都没留下…
展开
-
Python3判断字符中英文数字符号
第一篇博客,写一下关于Python3中字符中英文数字符号的判断。师姐给的一个任务,涉及到中英文混杂的文档集合,因而需要判断文本字符是中文还是英文。关于字符中文英的判断,网上一搜一大堆,但是拿过来一用就各种bug。主要原因是很多人给出的是Python2的代码,然后其中关于字符编码的问题,Pyhton2和Python3是不一样的。判断字符中英文的方法一般是将字符放在Unicode编码中进行进行比...原创 2018-11-16 16:30:11 · 6793 阅读 · 0 评论 -
Java调用Python脚本(Python3,Windows10系统)
介绍下如何在Java中调用Python脚本,可能是目前最简单的方法(●’^'●)。又是师姐的任务,要求把我的Python程序集成到纯Java的系统中。于是在网上又是一顿搜索,不乏各种厉害的方法。其中最常见的是Jython,听起来十分高大上,直接把世界上两种最强大的语言结合了,然后一顿安装操作之后发现目前只支持Python2(这都什么时代了,Python2都要跑路了…)。Github上面倒是...原创 2018-11-16 16:32:48 · 6097 阅读 · 10 评论 -
Python Pandas 构建共现矩阵
作者共现、词共现等各种共现情况的研究需求在我们这个学科还是挺多的,来写一下如何使用Python构建共现矩阵。基本思路构建共现矩阵,我一个基本思路是先根据所有的目标对象构建一个单位矩阵,然后对目标对象的共现情况进行统计、计算,将相应的结果覆盖到对应的矩阵元素即可。对于这种矩阵来说,矩阵的索引、列名使用对应的目标对象的名称会比较方便,因而想到了使用Python中的Pandas来构建矩阵。...原创 2018-11-16 16:35:19 · 7244 阅读 · 3 评论 -
Python爬虫 抓取大数据岗位招聘信息(51job为例)
简单介绍一下爬虫原理。并给出 51job网站完整的爬虫方案。爬虫基础知识数据来源网络爬虫的数据一般都来自服务器的响应结果,通常有html和json数据等,这两种数据也是网络爬虫的主要数据来源。其中html数据是网页的源代码,通过浏览器-查看源代码可以直接查看,例如:json是一种数据存储格式,往往包含了最原始的数据内容,一般不直接显示在网页中,这里可以通过Chrome浏览器>...原创 2018-11-16 16:37:43 · 19013 阅读 · 6 评论 -
BERT模型fine-tuning代码解析(一)
BERT模型fine-tuning过程代码实战,以run_classifier.py为例。BERT官方Github地址:https://github.com/google-research/bert ,其中对BERT模型进行了详细的介绍,更详细的可以查阅原文献:https://arxiv.org/abs/1810.04805 。BERT本质上是一个两段式的NLP模型。第一个阶段叫做:Pr...原创 2018-11-16 16:46:55 · 22872 阅读 · 52 评论 -
使用Google免费GPU进行BERT模型fine-tuning
使用Google Colab中自带的免费GPU进行BERT fine-tuning。前期准备首先,需要申请一个谷歌账号。打开谷歌云端硬盘,新建一个文件夹,例如:BERT。将代码和数据上传到该文件里。这里的代码应该是已经修改好的代码,具体方法参照上一篇博客,博客最后也有提到,谷歌Colab可以在运行的时候设定参数,因此这里代码里的参数可以保持为默认参数,方便在每次运行的时候修改。在云盘任...原创 2018-11-21 16:30:54 · 6766 阅读 · 4 评论