嗷海胆-CSDN博客

原创 scala 生成array（bigint）型数据

在某些情况下，需要向数据中增加新的特征列，但是可能出现，要求所有数据的类型一致的情况，如data type mismatch。我的数据中都是array（bigint）型数据，直接生成是没有办法的。使用Array(0.toLong)来生成。

2022-12-20 16:40:28 262

原创 scala 将A表中A表B表重合的部分删除

如果我们此时有两张表，一张表是原表，一张是过滤表，将过滤表中存在的部分作为条件，将A表中命中的部分剔除得到新表。

2022-12-20 15:38:21 172

使用经典的AlexNet模型，导入torchvision库中的models，并利用models。alexnet（）函数加载预设的模型，其中参数pretrained=True代表加载经过了训练后的模型参数。AlexNet分成了features和classifier两大块。其中features模块负责提取特征，以卷积层为主，classifier模块负责分类，以全连接层为主。为了构造一个二元分类器，需要重新定义AlexNet的classifier模块。前两个全连接层的参数可以保持不变，最后一层输入改成2：i

2021-12-12 23:10:14 928

原创 python和java中的@

严格说@符号并bai未在java 语言du中作为操作符使用。而zhi是在其他dao附zhuan技术中使shu用比如javadoc 文档关键字属@author@version@since@see用于自动生成API文档，标注作者、版本、历史变化、参考、功能、参数说明等相关信息等。python中的@作为装饰器使用：https://www.zhihu.com/question/26930016/answer/105175177def let_say(func): print("hah

2020-12-07 10:20:48 212

原创 python 命令行参数(python xxx.py -lp 30015)

在使用python命令行运行代码时，python xxx.py -lp 30015 ，后面跟的-，- -，是命令行的参数。parser = argparse.ArgumentParser()parser.add_argument('-lp', '--local_port', required=True, help='local port which runs the service for kb')args = parser.parse_args()可使用a

2020-12-06 23:32:28 594 1

原创 Python 的Flask实现 RESTful API

https://www.jianshu.com/p/33160c224732

2020-12-06 23:25:29 87

原创 pytorch embedding层报错index out of range in self

使用pytorch时，数据过embedding层时报错：Traceback (most recent call last): File "C:/Users/gaosiqi/PycharmProjects/DeepFM/main.py", line 68, in <module> out = model(train_data) File "C:\Anaconda3\envs\tensorflow\lib\site-packages\torch\nn\modules\module.

2020-11-22 18:41:30 27011 10

原创输入进神经网络前的文本处理

import jieba.possegimport torchimport gensimsent='这就类似于人类的视觉注意力机制，通过扫描全局图像，获取需要重点关注的目标区域，而后对这一区域投入更多的注意力资源，获取更多与目标有关的细节信息，而忽视其他无关信息。通过这种机制可以利用有限的注意力资源从大量信息中快速筛选出高价值的信息。'words = jieba.posseg.cut(sent, HMM=True) #分词processword=[]tagword=[]for w in wo

2020-11-09 10:16:46 383

原创 bert做语义相似度文章的注解

之前查找bert做语义相似度资料时使用了一个博主的代码，原文：https://blog.csdn.net/u012526436/article/details/84637834网上如何做fine-tune的文章很多，但是找到的单例预测的比较少，这个是为数不多的一篇。有些细节作者没写，查询资料后记录下来用来注解：（此处引用https://zhuanlan.zhihu.com/p/112062303）tensorflow 的Estimator 这个高级API，它的主要作用就是提出一个高级范式（paradi

2020-11-09 00:03:01 848

原创 pytorch seq2seq+attention机器翻译注

准备深入学习一下神经网络的搭建方法的时候，选了机器翻译来试试，正好查了很多资料，发现pytorch里有例子。就结合自己的理解和探究记录一下。原文实现代码：https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html其他博主的中文翻译及解释：https://blog.csdn.net/u014514939/article/details/89410425?utm_medium=distribute.pc_relev

2020-10-27 14:33:19 644

原创 pytorch搭建简单神经网络入门

参考自：https://blog.csdn.net/weixin_44912159/article/details/105051602https://blog.csdn.net/Ever_glow/article/details/89086960以下代码摘抄自https://blog.csdn.net/weixin_44912159/article/details/105051602，请先阅读上述参考文章。（改了几个参数试试）import torchimport matplotlib.pyplo

2020-10-09 10:51:33 231

原创 git提交代码

代码提交一般有五个步骤：1.查看目前代码的修改状态2.查看代码修改内容3.暂存需要提交的文件4.提交已暂存的文件5.同步到服务器1 查看目前代码的修改状态git status2 查看代码修改的内容git diff比较某文件与最近提交节点的差异。3 暂存需要提交的文件如果是新建的文件则git add 如果是修改的文件则git add 如果是删除的文件则 git rm 4 提交已暂存的文件git commit注意注释填写规范。git commit

2020-09-16 21:55:27 95

原创 pip安装pyltp失败

安装pyltp时如果只是pip install pyltp可能会安装半天仍然报错，在网上找的一种方法是加上版本号“pip install pyltp==0.1.9.1”就安装好了。

2020-08-24 16:44:39 1465

原创 python程序运行速度随着时间不断变慢甚至崩溃

有一个NLP相关的代码放在实验室的服务器上跑的时候，刚开始非常快，几分钟可以跑70个例子，过了几小时后就明显变慢，甚至放在服务器上跑了一晚上，仍然只跑了几个，因此，肯定不是代码本身的功能或者例子本身的问题。问了实验室的同学，应该是发生了内存泄漏。内存泄漏（Memory Leak）是指程序中己动态分配的堆内存由于某种原因程序未释放或无法释放，造成系统内存的浪费，导致程序运行速度减慢甚至系统崩溃等严重后果。我的程序正好有大量的循环，因此也给不断累积的内存泄漏提供了条件。如果是在服务器中，可以使用top命令

2020-07-30 22:50:26 8993

原创 neo4j-import批量导入失败

实体里面有非法字符，多个转义符如\\等。

2020-07-21 18:03:39 628

原创 neo4j创建索引失败

前几天准备做一个问答系统，所以要搭一个neo4j的图数据库，用的数据是北大他们和别人一起提供的。但是大量庞杂的数据避免不了"脏数据"这件事，在使用neo4j-import进行批量导入的时候可能会有很多数据会影响后面的索引建立，带来很难查出的麻烦，我查了几天，有以下几种情况会导致建立索引失败：（建立索引语句：create index on:Instance(name)）1.含有重复实体（不是我遇到的问题）批量导入的时候没有注意跳过重复实体。通过查询语句在页面上找出对应id删除即可2.实体或属性中含有特

2020-07-21 18:00:11 1327

原创利用github把代码项目上传到服务器

最近有个项目要放在实验室的服务器上跑，但是带宽等各种原因直接从本地上传到服务器有点不太方便，使用github来中转一下。要用github先下载一个git，所有的步骤按照网上的各种经验配好后，从自己的github上新建一个repository，然后复制一下地址，使用git clone xxxxx，将项目文件拷贝下来，上传文件的话就三步：add 文件，commit 文件，push文件。但是这里有...

2020-03-03 01:31:23 1872

原创 request和py2neo连接neo4j数据库

实验室代码要连接neo4j数据库，目前使用两种方法，第一种是request，在学校里用的也是这一种，但是回家使用代理连接内网时不知道怎么返回不了数据了，也不报错，遂使用py2neo去连接数据库，方法如下：一般来说连接数据库时要提供账号密码，Authorization后接的就是账号密码，但这里是编码后的，客户端把用户名和密码用BASE64编码后，放在Authorization header中发送给...

2020-03-03 01:06:13 590

原创 kaggle恶毒评论分类（加预训练词向量）

模式识别课的大作业，选了kaggle比赛的恶毒评论分类来做，参考了别人写的代码，组合了一些东西，可能效果就是个baseline吧，记录一下。（本来还有一个预处理，但是那就比较没啥技术含量了就不附上了）import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.r...

2020-01-05 22:58:38 1421

原创 Keras Core Layers

“sample”, “batch”, “epoch” 是什麽意思：sample：数据集中的一个元素batch：一组sample。一个batch里的sample是并行、独立的被处理的，但是一个batch的结果只会在模型里被更新一次。一个batch一般来说在不超过内存的情况下越大越好，因为可以更快的出结果。epoch：训练次数。一次epoch就是遍历一次数据集。Activation：激活函数...

2019-12-19 17:03:12 136

原创开始使用Keras函数API(翻译整理自Keras英文文档)

Keras函数API是定义复杂模型(如多输出模型、有向无环图或具有共享层的模型)的方法。第一个例子:密集连接的网络对于实现这样的网络，顺序模型可能是更好的选择，但它有助于从一些非常简单的东西开始。from keras.layers import Input, Densefrom keras.models import Model# This returns a tensorinput...

2019-12-19 14:26:24 338

原创 Keras学习一（翻译）

Keras学习本来做完模式识别的作业后，感觉现在读研完全避不开深度学习的坑，想系统的学一下keras，结果查询中文文档后发现翻译的不全，学也学不系统，干脆我自己来看英文文档，一边学一边翻译，以后自己要查询时也方便。（怨念~~~~）前言：一个简单地keras模型步骤为：sequential -> compile ->triangetting started with the ke...

2019-12-18 21:07:26 327

原创通过卸载再安装降低pip版本

通过卸载再安装降低pip版本最近使用pycharm做项目时要安装大量的包，由于不知道怎么搞得pip升级到了19.x的版本很多东西可能因此无法安装。网上查了一下还是尽可能的使用pip9.x的版本，在pycharm上又无法通过setting里面的自动安装pip低版本，所以有以下方法：打开cmd，进入该项目pip所在的目录输入命令卸载pip: pip uninstall pip然后快速安装： ea...

2019-11-03 16:47:36 1552

原创 ccf杂知识点

ccf杂知识点用sort给vector排序： sort（pq.begin(),pq.end(),cmp)遍历vector: for(int i=0;i<pq.size(),i++)sizeof算的数组占多少字节而不是个数（sizeof（a）/sizeof(a[0])）string用cin》s整体输入，遇空格或回车键都结束，getline（cin，s）遇空格不结束%*c丢弃该输入...

2019-09-05 21:45:52 263

原创爬虫笔记

爬虫笔记（仅作为学习记录，源来源慕课网）爬虫架构中，最为重要的就是图一画框部分，首先准备待爬取网页URL，然后通过网页下载器将目标页面下载下来，之后再将下载页面中自己需要的东西通过网页解析器提取出来。创建Beautiful Soup对象->find/find_all->访问节点名称，属性，文字。< a href=‘123.html’ class=‘articl...

2019-04-14 14:08:25 114

原创 CCF20170902-公共钥匙盒100分

问题描述　　有一个学校的老师共用N个教室，按照规定，所有的钥匙都必须放在公共钥匙盒里，老师不能带钥匙回家。每次老师上课前，都从公共钥匙盒里找到自己上课的教室的钥匙去开门，上完课后，再将钥匙放回到钥匙盒中。　　钥匙盒一共有N个挂钩，从左到右排成一排，用来挂N个教室的钥匙。一串钥匙没有固定的悬挂位置，但钥匙上有标识，所以老师们不会弄混钥匙。　　每次取钥匙的时候，老师们都会找到自己所需要的钥匙将其...

2019-02-26 17:47:32 371

原创数据可视化学习记录

数据可视化学习记录（1）指定了一些点后，plot（）会绘制出他认为合理的图形，可以看到，4.0处的值为25，但实际上应该是5.0处的值为25，我们需要为plot函数提供输入值来修正，input_values = [1,2,3,4,5]squares = [1, 4, 9, 16, 25]plt.plot(input_values, squares, linewidth=5) #线粗细...

2019-02-14 00:42:20 292

原创算法笔记学习记录（3）--DFS与BFS

算法笔记学习记录（3）深度优先遍历（DFS）和广度优先遍历（BFS）是计算机专业学生很经常听到的算法，但也许很多人并没有怎么接触，其实这两个算法非常方便好用，形式也简明，但要注意的是对递归要有比较清楚地理解。深度优先遍历设想有一个迷宫，深度优先遍历的思想是尽可能的“一条道走到黑”，路上会碰到很多岔道口（每一步都有多种情况），先选择其中一条走，如果碰见了死胡同则返回，直到找到走出出口的那一条路...

2019-02-10 17:52:46 463

原创算法笔记学习记录（2）--STL

算法笔记学习记录（2）c++标准模板库（STL）（1）vector–变长数组定义：vector name vector<vector> name访问：1.像普通数组一样通过下标访问 2.通过迭代器访问，迭代器iterator可以理解为一种类似指针的东西，定义：vector::iterator it, 可以通过*it来访问vector里的元素。vector常用函数：1...

2019-02-10 17:00:51 101

原创算法笔记学习记录（1）

算法笔记学习记录（1）注意事项笔记欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入...

2019-02-08 16:27:09 182

qq_32743513的博客