孙大力编程进化史-CSDN博客

原创德温特专利数据的爬取（selenium\xpath\contains解决了输入框ID老是动态改变的问题）

（一）目标针对一系列机构名，获取2016-2021年间的每年申请专利数目以及总数、专利家族数、专利授权量、专利被引频次。（二）方法1、使用Webdriver模拟人工访问浏览器步骤为：（1）定义检索情况：（2）定位、计算总被引量从检索结果中定位每个专利的被引量，降序排列后加和所有专利的被引量得到总的被引量（3）从筛选器中获取每年的申请量：（3）从筛选器中查看授权/申请状况2、BeautifulSoup解析页面这里，有个坑就是“一定要在点击完页面所有操作的按钮之后再进行解

2021-09-14 21:43:33 1723 2

原创 X2GO连接阿里云服务器等网页制作操作

0.选择Ubuntu系统的时候一定要选择20.04系统！！！而不是默认的16.04系统笔者一开始选择了16.04系统，各种bug操作，比如中英文输入法切换不过来、谷歌浏览器安装不上等等…浪费了一天的时间和心情！后来偶然间重置了系统（虽然清除了所有的数据），但是后续真的方便很多。1、在Ubuntu服务器上安装X2go的操作这位大哥为俺指明了方向，按照链接中的步骤1和2即可运行成功https://www.gingerdoc.com/tutorials/how-to-set-up-a-remote-d

2021-08-23 22:50:42 326

原创 Request爬取公众号内容发布时间的问题

最近在尝试+学习做网页，后续应该会开源全部的代码！其中一个内容是希望每天获得部分up主的文章内容，在时间获取上搞了一晚上，最后发现在微信公众号后台搜索文章时，通过request获取文章内容中appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'query_id_data = { 'action':'list_ex', 'begin':'0', 'count':'5', 'fakeid':fakeid, 't

2021-08-18 16:22:57 984

原创 FLASK网页制作，CSS文件不显示问题

调整了N次css文件之后，用flask模块运行之后均不显示。尝试了以下几种办法，包括但不限于：1.删除HTML文件中的<!DOCTYPE html>；2.将<link href="../static/css/styles.css" rel="stylesheet" />改为用url_for函数运行：<link href="{{ url_for('static', filename = 'css/styles_index.css') }}" rel="stylesheet

2021-08-18 16:11:08 2424 4

原创大数据量下文本聚类的最佳选择---“降维+MiniBatchKeans”

接上前面的工作，对分词后的文本数据聚类。面临的问题：17万多的数据转化为词向量，使用的是tf-idf方法，得到的向量维度是（174021，128021）。聚200个类花费时间为18个小时。解决方案：1、通过统计发现17万多文章中有90%+的词汇仅在0.1%的文章中出现过，然而这样的词汇因为过于生僻是没有意义的；因而对TfidfVectorizer函数中的min_df参数进行限定，保留出现频率大于0.1%小于90%的词汇，作为文本向量化表示的内容，得到1740211251维度大小的矩阵；2、对矩阵进行

2021-05-12 21:00:20 1282

原创 csv文件批量合并+词频Counter计算

CSV文件合并版本一:只用csv注意：写入文件时参数ab表示写入文件的是二进制文件，具体是ab还是a要和前面读的r和rb有关import csvfile = []for i in range(2001,2022): f_i = '/Users/sunmengge/Desktop/scopus_content/content_%d.csv'%i file.append(f_i)j = 2001for k in file: # 循环读取同文件夹下的csv文件 fr =

2021-05-12 17:07:55 218

原创分词工作

今日份工作量：对上周爬取的17万文献数据进行分词和聚类，由于是在服务器上进行的工作，使得鸽子又重新配置了python环境。其中难点、同时也是收获点在于1）我和python2真的是相克因为涉及pattern这个包我查了下感觉这个包在py3上很不好装，于是又重新下载了py2版本；由此引发了python2和python3版本不相容的问题，具体体现在pip和python的调用上；由此获得了如何修改源的问题；2）pattern这个包试了很多方法最终有效的还是官网下载-手动安装这个路径！3）对源数据进行清

2021-05-07 21:56:56 111 1

原创快速获取Scopus数据库文献信息（大于2万条）的方法

问题：针对某一检索式，scopus数据库导出csv的数据情况为：前2000条数据可以按照勾选的字段导出；前20000条数据只能给出引文信息，且通过邮箱发送。输入检索式，笔者现在需要17万多文献数据，且所需的信息不只是引文信息，包含以下字段（涉及引文信息、题录信息、摘要和关键字），如下图。采取的方法为：第一步：按照年份进行精简，因为每年的数据都小于2万条，所以每次均可完整地通过邮箱的方式获取到只有引文信息的文献；第二步，根据引文信息中的链接对每篇文章的摘要、索引关键字、作者关键字等字段进行爬虫，co

2021-04-29 21:30:10 3875 1

原创无监督数据场景下信息抽取问题

笔者现在有一批DWPI的专利数据，内含每一项专利的标题和摘要，时间跨度从2010-2020年，共计17万条。现操作要求是对每一项专利的标题进行关键技术术语抽取。如此任务为探索性任务，笔者希望能用此博客记录下探索过程中的思考和成效。探索一，将此任务转化为了术语标注问题，即自动对术语进行BIO的标注，然后再对标注好的短语做抽取。在此任务框架下，笔者想要先试试已经训练好的几个模型，直接得到标注好的结果；几个模型的实验结果做一下bagging后，再加上人工修正，作为训练集，再以此数据为训练集，训练bert+c

2020-08-15 19:49:00 752 1

qq_37967241的博客

原创德温特专利数据的爬取（selenium\xpath\contains解决了输入框ID老是动态改变的问题）

原创 X2GO连接阿里云服务器等网页制作操作

原创 Request爬取公众号内容发布时间的问题

原创 FLASK网页制作，CSS文件不显示问题

原创大数据量下文本聚类的最佳选择---“降维+MiniBatchKeans”

原创 csv文件批量合并+词频Counter计算

原创分词工作

原创快速获取Scopus数据库文献信息（大于2万条）的方法

原创无监督数据场景下信息抽取问题

原创 RNN循环神经

原创卷积神经

原创 MNIST数字识别&深层神经

原创深层神经网络初

空空如也

空空如也