- 博客(9)
- 收藏
- 关注
原创 运行bert的出现的困扰
服务器使用CUDA10.1版本,百度查找对应的tensorflow版本发现只有2+以上的,但是bert现在有的只是tensorflow1的版本,tensorflow2.x版本现在依旧没有出现,以为相差不大,改改应该可以,tensorflow1的代码转化为2的代码,一般在引入时换为import tensorflow.compat.v1 as tf即可,大部分函数相差不大,但是在2的版本中少了tf.contrib这个函数,在改此的过程中需要思考以下,推荐一个网站[https://tensorflow.googl
2020-11-23 22:01:04 419
原创 提取PDF表格数据
利用python 中的camelot库可以提取基于文本的PDF表格数据,(注意扫描版的则不能,基于文本的是指可以在该PDF文档上选取文本,而扫描版的PDF为图像格式)关键词read_pdf 可以读取PDF文件plot(tables[0],kind=‘text’)关键词plot可以绘制表格轮廓,其中kind参数可以定义为1.text 可显示所有文本,在图片上移动可以记录每个文本的坐标2....
2020-05-06 16:18:06 756
原创 基于共现关系的人物关系图
共现,顾名思义 ,共同出现。共现分析有多种,比如分析参考文献、作者、词汇对(关键词)、作者机构等同时出现的情况,分析两者之间的密切联系。...
2020-04-09 10:52:42 4290
原创 词干提取和词性还原
Classification of stroke disease using machine learning algorithms利用文本挖掘及机器学习方法对中风疾病分类,主要为两类文本挖掘借助了对病人访谈的文本,为提取关键信息(1) GENIA Tagger:GENIA Tagger是一个主要应用于生物医学文本领域的词性标注和浅层语法分析工具,GENIA Tagger在GENIA语料上...
2020-03-23 22:59:40 439
原创 樱花引发的视频分解图片和图片合成视频
武汉樱花程序上了热搜,闲来无事运行了一番,发现可以将视频分解成一张张图片和图片合成视频的opencv,在pycharm中只需要在settings-project interprter-available packages中搜索opencvn安装即可(1)将视频分解为图片# 视频分解图片# 1 load 2 info 3 parse 4 imshow imwriteimport cv2# ...
2020-03-19 22:10:42 163
原创 R语言在安装某个包时显示退出状态不是0
R语言在安装某个包时显示退出状态不是0在安装生存分析所用的包survminer时,install.packages(“survminer”) 试了多次,一直显示其退出状态为0解决方法:(1)更换下载镜像,失败(2)安装Rtools,据说这是个神奇的工具,下载地址添加链接描述,安装过程一定要勾选添加环境变量,但是利用system(‘g++ -v’)检测时却一直报错127,反复实验无果,放弃...
2020-03-19 11:38:28 17695
原创 爬取京东评论并制作词云图
jieba库jieba库是python的第三方中文分词库,利用jieba可以更好的实现中文分词。jieba.cut 方法接受三个输入参数: sentence需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型。jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排...
2020-02-18 13:26:20 1516
原创 简单爬取淘宝基本信息
用爬虫爬取淘宝,需要进行登录,获得头部header信息,得到该信息后将此信息作为参数传递给getHtmlText函数中的header.获得头部信息:(1)登录淘宝页面,打开开发人员工具页面(2)重新加载,找到Network下的第一条链接(3)复制链接到https://curl.trillworks.com/中的curl command,将其转换为python requestsimpo...
2020-02-13 16:21:28 1241
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人