自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 德温特专利数据的爬取(selenium\xpath\contains解决了输入框ID老是动态改变的问题)

(一)目标针对一系列机构名,获取2016-2021年间的每年申请专利数目以及总数、专利家族数、专利授权量、专利被引频次。(二)方法1、使用Webdriver模拟人工访问浏览器步骤为:(1)定义检索情况:(2)定位、计算总被引量从检索结果中定位每个专利的被引量,降序排列后加和所有专利的被引量得到总的被引量(3)从筛选器中获取每年的申请量:(3)从筛选器中查看授权/申请状况2、BeautifulSoup解析页面这里,有个坑就是“一定要在点击完页面所有操作的按钮之后再进行解

2021-09-14 21:43:33 1695 2

原创 X2GO连接阿里云服务器等网页制作操作

0.选择Ubuntu系统的时候一定要选择20.04系统!!!而不是默认的16.04系统笔者一开始选择了16.04系统,各种bug操作,比如中英文输入法切换不过来、谷歌浏览器安装不上等等…浪费了一天的时间和心情!后来偶然间重置了系统(虽然清除了所有的数据),但是后续真的方便很多。1、在Ubuntu服务器上安装X2go的操作这位大哥为俺指明了方向,按照链接中的步骤1和2即可运行成功https://www.gingerdoc.com/tutorials/how-to-set-up-a-remote-d

2021-08-23 22:50:42 321

原创 Request爬取公众号内容发布时间的问题

最近在尝试+学习做网页,后续应该会开源全部的代码!其中一个内容是希望每天获得部分up主的文章内容,在时间获取上搞了一晚上,最后发现在微信公众号后台搜索文章时,通过request获取文章内容中appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'query_id_data = { 'action':'list_ex', 'begin':'0', 'count':'5', 'fakeid':fakeid, 't

2021-08-18 16:22:57 973

原创 FLASK网页制作,CSS文件不显示问题

调整了N次css文件之后,用flask模块运行之后均不显示。尝试了以下几种办法,包括但不限于:1.删除HTML文件中的<!DOCTYPE html>;2.将<link href="../static/css/styles.css" rel="stylesheet" />改为用url_for函数运行:<link href="{{ url_for('static', filename = 'css/styles_index.css') }}" rel="stylesheet

2021-08-18 16:11:08 2391 4

原创 大数据量下文本聚类的最佳选择---“降维+MiniBatchKeans”

接上前面的工作,对分词后的文本数据聚类。面临的问题:17万多的数据转化为词向量,使用的是tf-idf方法,得到的向量维度是(174021,128021)。聚200个类花费时间为18个小时。解决方案:1、通过统计发现17万多文章中有90%+的词汇仅在0.1%的文章中出现过,然而这样的词汇因为过于生僻是没有意义的;因而对TfidfVectorizer函数中的min_df参数进行限定,保留出现频率大于0.1%小于90%的词汇,作为文本向量化表示的内容,得到1740211251维度大小的矩阵;2、对矩阵进行

2021-05-12 21:00:20 1247

原创 csv文件批量合并+词频Counter计算

CSV文件合并版本一:只用csv注意:写入文件时 参数ab表示写入文件的是二进制文件,具体是ab还是a要和前面读的r和rb有关import csvfile = []for i in range(2001,2022): f_i = '/Users/sunmengge/Desktop/scopus_content/content_%d.csv'%i file.append(f_i)j = 2001for k in file: # 循环读取同文件夹下的csv文件 fr =

2021-05-12 17:07:55 205

原创 分词工作

今日份工作量:对上周爬取的17万文献数据进行分词和聚类,由于是在服务器上进行的工作,使得鸽子又重新配置了python环境。其中难点、同时也是收获点在于1)我和python2真的是相克 因为涉及pattern这个包 我查了下感觉这个包在py3上很不好装,于是又重新下载了py2版本;由此引发了python2和python3版本不相容的问题,具体体现在pip和python的调用上;由此获得了如何修改源的问题;2)pattern这个包试了很多方法 最终有效的还是官网下载-手动安装这个路径!3)对源数据进行清

2021-05-07 21:56:56 104 1

原创 快速获取Scopus数据库文献信息(大于2万条)的方法

问题:针对某一检索式,scopus数据库导出csv的数据情况为:前2000条数据可以按照勾选的字段导出;前20000条数据只能给出引文信息,且通过邮箱发送。输入检索式,笔者现在需要17万多文献数据,且所需的信息不只是引文信息,包含以下字段(涉及引文信息、题录信息、摘要和关键字),如下图。采取的方法为:第一步:按照年份进行精简,因为每年的数据都小于2万条,所以每次均可完整地通过邮箱的方式获取到只有引文信息的文献;第二步,根据引文信息中的链接对每篇文章的摘要、索引关键字、作者关键字等字段进行爬虫,co

2021-04-29 21:30:10 3752 1

原创 无监督数据场景下信息抽取问题

笔者现在有一批DWPI的专利数据,内含每一项专利的标题和摘要,时间跨度从2010-2020年,共计17万条。现操作要求是对每一项专利的标题进行关键技术术语抽取。如此任务为探索性任务,笔者希望能用此博客记录下探索过程中的思考和成效。探索一,将此任务转化为了术语标注问题,即自动对术语进行BIO的标注,然后再对标注好的短语做抽取。在此任务框架下,笔者想要先试试已经训练好的几个模型,直接得到标注好的结果;几个模型的实验结果做一下bagging后,再加上人工修正,作为训练集,再以此数据为训练集,训练bert+c

2020-08-15 19:49:00 741 1

原创 RNN循环神经

import numpy as npX=[1,2]state=[0.0,0.0]#定义用于状态输出的全连接参数,且最好将状态和输出的权重分开定义!!!w_cell_state = np.asarray([[0.1,0.2],[0.3,0.4]])w_cell_input = np.asarray([0.5,0.6])b_cell = np.asarray([0.1,-0.1])#...

2018-10-30 09:24:50 552

原创 卷积神经

一、卷积神经网络的整体架构1、卷积神经网络与全连接神经网络的唯一区别在一神经网络中相邻两层的连接方式,全连接中每两层之间的所有结点都是有边相连的,而卷积中只有部分节点相连。2、全连接神经网网络在处理复杂问题时参数过多,极易导致过拟合的问题。3、卷积神经网络的架构图一个卷积神经网络由5种机构组成:(1)输入层。三维矩阵代表一张图片,长和宽表示图像像素的大小,深度表示图像的色彩通道。其中,...

2018-10-23 22:35:52 508

原创 MNIST数字识别&深层神经

话不多说,先上代码:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'#常数定义INPUT_NODE=784OUTPUT_NODE=10LAYER1_NODE=500#隐藏...

2018-10-23 10:05:43 137

原创 深层神经网络初

前言使用神经网络解决分类问题主要分为以下4个步骤:1.提取问题中实体地特征向量作为神经网络地输入。以下假设作为神经网络输入的特征向量可以直接从数据集中获取;2.定义神经网络的结构,即如何从神经网络的输入得到输出;3.通过训练数据来调整神经网络中的参数的取值;4.使用训练好的神经网络来预测未知的数据。(一)前向传播算法简介一个最简单的神经元结构的输出就是所有输入的加权和,不同输入的权重...

2018-10-21 20:42:37 322

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除