![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
技术之路
文章平均质量分 87
为援不可图
一个喜欢将技术应用于实际中的程序猿,喜欢搞算法、前后端交互,也希望自己的小经验能够帮助到大家
展开
-
GCN-图卷积模型理解
论文提出了一种可以在图结构中进行有效特征抽取的架构,这是和我们认为的卷积神经网络所处理的图片问题不同,图往往是非结构数据,呈散发或者聚合的样子,因此,很难通过普通的卷积网络来进行特征抽取。原创 2022-09-08 16:43:51 · 1419 阅读 · 1 评论 -
GraphSAGE-Inductive Representation Learning on Large Graphs
在当前节点中的邻居节点中,随机抽取N个节点(有放回),通过将这N个节点的特征进行聚合操作,来生成当前节点的表征。原创 2022-09-07 17:05:49 · 711 阅读 · 0 评论 -
GAT-图注意力模型
在直推式模型如GCN中,使用拉普拉斯矩阵来获取顶点特征,但是,拉普拉斯矩阵存在着一些问题,在运算的时候,需要把整个图所有节点都放进模型中,这就导致无法预测新节点。而GAT采用Attention架构,只负责将该节点的邻居节点进行计算,也就是只计算子图的一部分,这样,就可以避免全图计算。原创 2022-09-06 17:12:51 · 3708 阅读 · 3 评论 -
在PyG上构建自己的数据集
本部分用到的也是Cora数据集,但是不是官方版本的数据集,而是非常平易近人的风格,拿来就可以使用。原创 2022-09-02 15:56:17 · 4539 阅读 · 7 评论 -
SynchroTrap:基于相似度的异常检测算法
顾名思义,SynchroTrap即在同步情况下的欺诈。黑产通过控制大量的账号,需要在有限的时间里获取最大的利益,那不可避免的就会产生多个黑产账号在某段时间内发生重合行为的现象。原创 2022-09-02 14:49:50 · 548 阅读 · 1 评论 -
标签传播算法(LPA)
标签传播算法(Label Propagation Algorithm,LPA),是一种基于标签传播的局部社区划分算法。LPA将Grpah中的每个节点打上唯一的标签,通过随机选择一个node作为起始节点,根据其相连节点的标签改变自己的标签,以此来对整个图进行遍历,每一次迭代,图局部标签进行更新,从而达到整个Graph的标签确定。原创 2022-09-01 19:42:47 · 2896 阅读 · 0 评论 -
Ubuntu系统下Flask+Nginx+uwsgi搭建网站
1、序言Hello,大家好,小编好久不更新了,原因很多,我只取一个,因为没得写。谨以此片(篇),纪念我的第二次搭建网站之旅。2、配置Nginx敲下如下命令:先更新一下包,免得报错sudo apt-get update然后,安装Nginxsudo apt-get install nginx配置nginx信息,新建flask_nginx.conf文本,写入以下信息:server { listen 80;#监听端口 server_name www.cpiss.net;#自己的域名,如原创 2021-08-02 15:47:11 · 611 阅读 · 1 评论 -
Python pyecharts创建词云图
文章目录简介制作flask展示html格式js代码Python代码js版本结语简介词云图,通过对文章中的词语统计词频,可以直接反应某个词在文章中的重要性以及出现次数比。制作怎么制作词云图呢?Python已经给我们提供了一个完整的库,名为pyecharts,看名字就知道,这个库是专门为python定制的,里面包含了当下主流的一些图,例如:柱状图、饼图、折线图等,大家可以看一下官网https://pyecharts.org/。下面来看一下代码:import pyecharts.options as o原创 2021-03-09 16:38:19 · 2202 阅读 · 2 评论 -
python 使用代理ip爬虫
Python 使用代理ip爬虫爬虫定义代理ip为什么要用代理ip代理ip来源如何代理简单吗结束爬虫定义网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫 百度百科爬虫.代理ip为什么要用代理ip随着信息的越来越庞大,获取数据的途径也不断增多,各个渠道都不会让使用者轻易的采集到本网的信息,而通过ip访问的频率可以对该ip进行判断,是否属于脚本机器在用,原创 2021-02-25 11:34:16 · 40312 阅读 · 2 评论 -
研究生要不要出去实习
自从5月1日开始,我便在北京的一个公司进行实习,不知道像我这样的有没有同样的经历,我想谈一谈研究生到底要不要出来实习。 很多人说研究生分为两种,一种是学硕,专搞学术;另一种是专硕,专搞工程。这种说法其实在某种程度上我不太苟同,搞学术要有基础的操作手段来进行学术研究支持,搞工程要有高领域的论文来进行佐证。因此,大部分学校可能会要求研究生在校期间要进行为期半年到一年的实习阶段,那么在这个阶段我们...原创 2020-08-07 17:16:28 · 25722 阅读 · 1 评论 -
计算机专业要不要读研?
最近在博客上看到有许多的文章,在讨论计算机学生要不要读研、计算机专业读研的优势在哪里等等这一类的文章,我作为一名计算机系的研究生,其实还是有些许感慨的,看到这类文章不知道大家心中作何感想,反正我心里是很难堪的,现在的形势风云变化,谁能知道读研到底有没有用呢,那么我想来说说自己的观点,希望大家不要介怀。 首先呢,从我自身的考研的角度来说。其实,我觉得考研还是有用的,对于一些高考失利的学生来说,...原创 2020-08-07 17:16:41 · 30347 阅读 · 13 评论 -
Exception in thread “main“ java.lang.IllegalArgumentException: http://www.dmg.org/PMML-4_4
错误来源请看自己的PMML文件,图中红线部分PMML-4_4既为错误来源,请降低你的Python训练版本正常的信息如下图所示原因jar包和PMML文件版本不相符,jar包版本过低不能解析PMML文件,但不要想着升级jar包去解析PMML文件,表示很难,只有降低PMML版本匹配jar包才算安全(此乃深坑[神坑])。...原创 2020-07-23 17:09:36 · 1490 阅读 · 2 评论 -
Java调用PMML模型
生成PMML模型具体见我的上一篇博客Python XGBoost保存模型PMMLJava调用PMML模型Java基本的运行环境就不说了,大家如果能看到这篇文章,基本上就都掌握了Java运行环境。首先maven导入需要的jar包 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId>原创 2020-07-23 17:02:22 · 5432 阅读 · 0 评论 -
Python XGBoost保存模型PMML
PMML简介PMML全称预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型。PMML是一种跨平台调用模型,加入使用Python训练好一个机器学习模型后,保存为pkl模型,那么在java上不是能进行使用的,这时就需要将模型转为PMML,这也是其有效之处。优点1、PMML模型可以跨平台调用,既可以在java环境运行,也可Python环境运行(Python调用的话为什么不用pkl更直接呢)2、支持更多开源语言缺点1、Python调用P原创 2020-07-23 16:54:57 · 4834 阅读 · 0 评论 -
python实现Simhash处理大规模文本相似度
Simhash简介:Simhash–顾名思义,通过hash值比较相似度,通过两个字符串得出来的hash值,进行异或操作,然后得到相差的个数,数字越大则差异越大。Simhash流程:计算文本hash值的步骤:1、用分词工具(jieba、NLPIR、哈工大分词器等)对字符串进行分词,英文除外;seg = jieba.cut(str)2、分词后筛选关键词,计算关键词的权重;keyword = jieba.analyse.extract_tags('|'.join(seg), topK=20, wi原创 2020-06-19 15:21:22 · 3072 阅读 · 3 评论 -
训练K-Means与DBSCAN算法模型
在copy代码之前,先来对k-means和dbscan算法进行简单的了解一下吧。k-means介绍K-means聚类算法也称k均值聚类算法,是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。核心思想K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距原创 2020-05-29 14:57:58 · 996 阅读 · 0 评论 -
INSERT OVERWRITE LOCAL DIRECTORY
最近在hive操作导数据时,碰到了一些问题,主要是通过INSERT OVERWRITE LOCAL DIRECTORY来进行数据的导出操作,现在主要说一下需要注意的事项:INSERT OVERWRITE LOCAL DIRECTORY ‘路径’ select * from datas;该语句是将datas中的数据导出到本地的路径中。INSERT OVERWRITE LOCAL DIRECTO...原创 2020-04-15 16:13:45 · 7671 阅读 · 3 评论 -
FAILED: Parse Error: line 1:55 cannot recognize input near 'row' 'format' 'delimited' in select clau
今天在操作hive查询语句的时候,出现了这个错误:FAILED: Parse Error: line 1:55 cannot recognize input near ‘row’ ‘format’ ‘delimited’ in select clause,感觉很悲伤,以前的语句是没有问题的,现在主要写一下解决问题的思路:1、仔细检查语句,仔细检查语句,仔细检查语句(重要的话说三遍,以前可以用的,...原创 2020-04-09 16:19:27 · 1714 阅读 · 0 评论 -
推荐系统之UserCF算法
基于用户的协同过滤算法算法概念:UserCF算法是推荐系统中协同过滤算法中的一种,称为基于用户的协同过滤算法。该算法通过用户A的兴趣,找到兴趣相同的其他用户,将其他用户喜欢而用户A没有的物品进行推荐。算法步骤:找到和目标用户兴趣相似的用户集合;找到这个集合中用户喜欢的,且目标用户没有的物品推荐给用户。算法缺点:在该算法应用的场景中,用户的数目越大,计算用户相似度矩阵越难,其困难度...原创 2020-01-23 11:11:37 · 1166 阅读 · 0 评论 -
python将每一列写入列表
# -*- coding: utf-8 -*-'''python读取文件,每一列写入一个列表'''def read(cor): data = [] with open(cor,encoding='utf-8') as fr: lines = fr.readlines() sent_, pin_, tag_ = [], [], [] for l...原创 2018-03-16 10:54:15 · 5547 阅读 · 1 评论 -
docker打包jar镜像
小编最近在实习公司帮忙做项目部署,对方要求需要把jar包再次进行docker镜像封装,小编呢也没有了解过docker镜像,于是就去百度了一波,发现了这个Docker中文文档,感觉还不错,大家不会的可以来看看,很详细的介绍了有关Docker的东西,不多说,直接做。系统:Ubuntu16.04要求:apt、wget、ssh、docker、linux版的JDK以及交互界面(xshell、xftp)...原创 2018-11-20 15:33:23 · 1713 阅读 · 0 评论 -
java解析json的方法
JSON数据解析的有点在于他的体积小,在网络上传输的时候可以更省流量,所以使用越来越广泛,下面介绍使用JsonObject和JsonArray的两种方式解析Json数据。使用以上两种方式解析json均需要依赖json-lib.jar开发包使用依赖包1、JsonObject使用JsonObject解析只有一条数据的json是非常方便的例...转载 2018-11-08 11:31:00 · 288 阅读 · 0 评论 -
word2vec训练中文语料
最近在做一个问答系统,看了很多论文,主要学习作者是如何进行做问答的,大都是这个过程:1、构建语料库;2、训练词向量;3、问题间和问答间的相似度对比;4、在线搜索答案。5、信息抽取;6、生成答案。网上大都是对wiki百科开源的中文语料进行训练的,很多作者都会对自己构建的语料进行向量模型计算,因此,我也需要进行训练,可供选择的两种算法一种是word2vec算法,一种是Glove算法,但是...原创 2018-10-30 14:57:05 · 3038 阅读 · 1 评论 -
Linux配置深度学习环境
今天在阿里云上申请了一个深度学习服务器,碰到了很多坑,在网上查了好多资料,大都是自己电脑可以别的电脑就不可以的那种,整合了多个博客的文章才把环境配置好,现在写一个完整的配置方案,以后用起来就方便多了,也供大家参考。一、首先安装nvidia驱动:***在官网上查找符合自己gpu的驱动:http://www.nvidia.com/Download/index.aspx,选择合适的版本下载。更新系...原创 2018-10-22 17:18:56 · 2666 阅读 · 0 评论 -
TF-IDF关键词提取算法
参考书目:python自然语言处理实战——核心技术与算法TF/IDF基本思想:TF是计算一个词在一篇文档中出现的频率,IDF是一个词在多少篇文档中出现过,显然TF越高证明这个词在这篇文章中的代表性就越强,而INF越低则证明这个词在具有越强的区分能力。因此中和这两个数,就能较好地算出文档的关键词。关...转载 2018-11-20 15:38:01 · 879 阅读 · 0 评论 -
java使用log4j输入到指定文件中
今天遇到了一个新问题,在java程序中,写入一个抛出异常的语句,当有错误的时候,系统会把错误输出到控制台,那么我们怎么把控制台上的错误信息当做日志输出到我们特定的日志当中呢。这个问题需要借助log4j神器,我们在程序中导入以下两个包:http://120.52.51.14/repo.spring.io/plugins-release/apache-log4j/log4j/1.2.14/log4...原创 2018-12-26 16:17:08 · 1106 阅读 · 0 评论 -
mysql防止插入重复数据
我们对mysql插入数据分为两种情况:一、以主键为区别字段,主键不能重复方案一:insert ignore into table_name(email,phone,user_id) values('test9@163.com','99999','9999')其中table_name为数据库名称;email,phone,user_id为字段名;‘test9@163.com’,‘9999...原创 2018-12-27 15:59:47 · 681 阅读 · 0 评论 -
最短编辑距离
概念:字符串的编辑距离,又称为Levenshtein距离,由俄罗斯的数学家Vladimir Levenshtein在1965年提出。是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:⋅\cdot⋅ 删除字符⋅\cdot⋅ 添加字符⋅\cdot⋅ 修改字符一般来说,两个字符串的编辑距离越小,则它们越相似。如果两个字符串相等,则它们的编辑距离为0。...原创 2018-12-25 13:55:47 · 470 阅读 · 0 评论 -
Python解析xml找出同目录标签
什么是 XML?XML 指可扩展标记语言(eXtensible Markup Language)。 你可以通过本站学习 XML 教程XML 被设计用来传输和存储数据。XML 是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。Python 对 XML 的解析常见的 XML ...原创 2019-06-20 16:21:37 · 1791 阅读 · 0 评论 -
ServiceUnavailable: WebSocket connection failure. Due to security constraint
出现这个问题的环境如下:在linux部署neo4j;vim /conf/neo4j.conf修改以下配置项#dbms.directories.import=importdbms.memory.heap.initial_size=5gdbms.memory.heap.max_size=10gdbms.memory.pagecache.size=10gdbms.connectors....原创 2019-06-21 11:18:02 · 9226 阅读 · 6 评论 -
python封装成exe
最近写了一个小小的程序,需要进行封装exe,为了简单,就直接用了pyinstaller这个模块,对于python3.6版本的童鞋来说,简直方便的不要。下面就给大家介绍一下如何用pyinstaller去封装程序为exe程序。首先,需要安装一下pip这个应用,这个已经在前面的文章中说过了,windows和linux都有请借鉴windows和linux。第二步,安装好pip之后,在cmd命令窗口中输...原创 2018-10-17 14:45:15 · 69670 阅读 · 28 评论 -
python3 pdf转成txt
这两天在做一个pdf转txt文档的工作,真是搞的头大,pdf本来就不好搞,还要转成txt文档,在网上和github上查了一番资料,好的是关于python转txt文档的还不少,不好的是大都是关于python2.x版本的,无奈。。。。。不知道大家是不是很长时间没有关注这个功能了,大都停留在2.x版本,然而python2就要快不用了,现在python3.x版本这么流行,因此,我就把python2版本的...原创 2018-10-19 09:43:40 · 6330 阅读 · 3 评论 -
句子相似度实现算法
句子相似度–顾名思义就是两个句子之间相似的程度。 句子相似度在NLP中有很大的用处,譬如文本分类、信息检索、语义分析等,它可以为我们提供检索信息更快的方式,并且得到的信息更加准确。 基于传统的相似度算法,可以分为以下几个步骤: 1、分词 2、去除停用词 3、词向量的生成 4、相似度分析 5、生成相似度分数 相似度算法有很多,TF-IDF算法、余弦相似度算法、gensim...原创 2018-09-07 16:43:56 · 4012 阅读 · 0 评论 -
python实现大数定理
大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。但是注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数“定律”。而我们说的大数定理通常是经数学家证明并以数学家名字命名的大数定理,如伯努利大数定理。下面我模拟了投掷一枚筛子,测试从1-6出现的情况,可以看出次数越多,每个数字出现的可...原创 2018-03-24 15:51:43 · 2453 阅读 · 0 评论 -
python遇到文中的空格就换行
# -*- coding: utf-8 -*-'''遇到文中的空格就换行'''def delblankline(infile, outfile): infopen = open(infile, 'r',encoding="utf-8") outfopen = open(outfile, 'w',encoding="utf-8") db = infopen.read(...原创 2018-03-13 14:27:23 · 5337 阅读 · 2 评论 -
python将文件中的数据去重
# -*- coding: utf-8 -*-'''只使用与较小的文件,比较大的文件运行时间长'''def fenhang(infile,outfile): infopen = open(infile,'r',encoding='utf-8') outopen = open(outfile,'w',encoding='utf-8') lines = infopen...原创 2018-03-17 13:37:27 · 2963 阅读 · 0 评论 -
python将每个单词按空格分开
# -*- coding: utf-8 -*-'''python读取英文文件,将每个单词按照空格分开,并将每个单词独自放一行'''def fenhang(infile,outfile): infopen = open(infile,'r',encoding='utf-8') outopen = open(outfile,'w',encoding='utf-8') ...原创 2018-03-17 13:33:25 · 10693 阅读 · 4 评论 -
python实现logistic回归算法
'''logistic回归函数'''from __future__ import print_functionimport tensorflow as tf#导入MNIST数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("/tmp/dat...翻译 2018-03-11 10:37:43 · 290 阅读 · 0 评论 -
爬虫爬到含空格的url的处理办法
转载“http://blog.csdn.net/qq_30242609/article/details/62896170” 道友问我的一个问题,之前确实没遇见过,在此记录一下。问题描述在某网站主页提取url进行迭代,爬虫请求主页时没有问题,返回正常,但是在访问在主页提取到的url时出现了400状态码(400 Bad Request)。结论先贴出结论来,如果url里有空格的话,要把...转载 2018-03-16 11:05:18 · 1630 阅读 · 0 评论 -
python将文本分每两行一组
# -*- coding: utf-8 -*-'''python读取文件,每两行为一组'''def fenhang(infile,outfile): infopen = open(infile,'r',encoding='utf-8') outopen = open(outfile,'w',encoding='utf-8') lines = infopen.rea...原创 2018-03-16 10:51:31 · 2547 阅读 · 0 评论