MilkLeong-CSDN博客

原创知识图谱与云计算

所以不但要做符号化的知识图谱的管理，也要做向量化的知识图谱的管理。现在一个重要的趋势就是将知识图谱的符号式的表示转换成分布式的数值表示。大模型通过使用大规模的数据进行训练，学到了很多我们人类还没意识到的隐性的知识。未来应将知识图谱中的显性知识与大模型中的隐性知识结合起来解决问题。知识图谱是符号主义解决问题的一种方式。知识图谱中概念知识的向量化表示跟实体知识的向量表示是不一样的，如何对这些概念知识的向量表示进行学习也是需要考虑的问题。由于图的表示多种多样，对知识图谱进行系统化的管理十分的必要。

2024-01-04 17:31:09 521

原创基于pyltp的依存句法分析

代码是两年多前网上找的，能运行。先记在这里，以防以后用到。

2023-12-01 16:01:39 609

原创集成学习的两种常见策略：bagging VS. boosting

Bagging（自助聚集法）：Bagging是一种并行的集成学习策略，它通过随机有放回地从原始训练集中抽取多个子样本集，并使用这些子样本集来训练多个基学习器。每个基学习器都是独立地训练，并且可以并行地进行。最后，通过对基学习器的预测结果进行投票或平均，来得到集成模型的最终预测结果。Bagging的主要思想是通过减少模型的方差来提高整体模型的稳定性和泛化能力。通过随机抽样和并行训练，Bagging能够减少模型对训练数据的过拟合程度，提高模型的鲁棒性。

2023-11-27 17:44:29 900

原创机器学习：scale-variant VS. scale invariant, discriminative models VS. generative models

Chat-GPT回答的，记在这里。

2023-11-27 17:38:45 465

原创 NLP中两个词向量间余弦相似度的求解方式

根据ChatGPT生成的答案改的。

2023-11-20 17:59:15 92

原创 Kneser-Ney平滑（Kneser-Ney smoothing）简介

它的基本思想是利用n-gram的上下文信息来估计未见n-gram的概率。在语言模型中，n-gram是指由n个连续的词组成的序列。n-gram语言模型的目标是计算给定一个上下文的情况下，下一个词的概率。然而，当模型遇到未在训练数据中出现的n-gram时，概率会变为零，这会导致模型在生成或评估文本时出现问题。（3）Kneser-Ney平滑通过利用上下文信息来提高语言模型的性能，尤其是在处理未见n-gram时。（2）在计算概率时，使用补充概率和回退概率来调整未见和已见n-gram的概率。计算补充概率和回退概率。

2023-11-06 15:10:44 402

原创【报错-已解决】Resource tagsets not found.

最近在接触nltk，已经在电脑里download nltk.data了，但程序还是报错Resource tagsets not found.对tagset压缩包进行解压，并确认解压后的文件夹文件路径没有重复(tagsets)，该问题便解决了。在电脑里查找tagset，发现tagset文件没有解压。

2023-11-04 00:01:45 159

原创【python的输入】sys.stdin与sys.argv

在老师的课堂里碰到了sys.stdin与sys.argv，虽然是很简单的东西，还是花了大半天的时间才勉强理解。在这里记录一下学习过程，方便以后用到复习。

2023-10-04 00:19:52 695

原创【已解决+吐槽】pip install cn2an报错 Cannot uninstall ‘ruamel_yaml‘

我需要用cn2an模块将中文的数字转化为阿拉伯数字，但在安装cn2an的过程中出现了以下报错：于是乎，我跟着CSDN上开始跟nodejs死磕，折腾了大半天，以下是各种尝试。然后就一直卡在这。由于我是nodejs小白，所以就跟着这篇讲解的教程反复修改各种路径以及环境变量，但是一直没解决。

2023-09-01 22:59:26 423

原创【李宏毅机器学习·学习笔记】Tips for Training: Adaptive Learning Rate

本节课主要介绍了Adaptive Learning Rate的基本思想和方法。通过使用Adaptive Learning Rate的策略，在训练深度神经网络时程序能实现在不同参数、不同iteration中，学习率不同。本节课涉及到的**算法或策略**有：Adgrad、RMSProp、Adam、Learning Rate Decay、Warm Up。

2023-08-05 16:39:07 391

原创【李宏毅机器学习·学习笔记】Tips for Training: Batch and Momentum

本节课主要介绍了Batch和Momentum这两个在训练神经网络时用到的小技巧。合理使用batch，可加速模型训练的时间，并使模型在训练集或测试集上有更好的表现。而合理使用momentum，则可有效对抗critical point。

2023-08-04 15:32:52 446

原创【李宏毅机器学习·学习笔记】when gradient is small-Critical Point (local extramum/ critical point)

本节课主要内容是介绍optimization失败后，如何对失败原因进行判定。当optimization不再起作用，参数对loss的微分趋近于0，gradient为0无法再update参数，而loss还很大，此时是卡在了local minima/local maxima，还是卡在了saddle point？课程引入了critical point的概念，并用Tayler Series Approximation来判定是卡在局部极值点还是saddle point。最后对局部极值点出现的概率进行了分析。

2023-08-04 00:29:06 88

原创【李宏毅机器学习·学习笔记】Deep Learning General Guidance

本节课可视为机器学习系列课程的一个前期攻略，这节课主要对Machine Learning 的框架进行了简单的介绍；并以training data上的loss大小为切入点，介绍了几种常见的在模型训练的过程中容易出现的情况(model bias, optimization, overfitting, mismatch)。

2023-07-29 15:28:57 734

原创 Django基本操作：创建网页文件夹及APP

运行该文件夹下的manage.py文件(这个语句在cmd中跑不通，在ana可以，可能是ana中才有虚拟环境)输入如下语句，会发现文件夹中多了一个叫ShanJing的文件夹。会发现该路径下多了个mywebsite文件夹。创建一个叫ShanJing的APP。(同样的代码在cmd中跑不通)命令行查看Django版本。浏览器查看Django页面。

2023-04-05 14:19:27 247 1

原创 Gephi cannot find Java 1.8 or higher报错解决

我将Gephi.conf中的jdkhome变量设置如下：(https://blog.csdn.net/weixin_43846270/article/details/113402004?Gephi能正常打开了。

2022-09-17 16:50:03 571 3

原创使用TF-IDF对文本集中的单篇文本制作词云

使用TF-IDF制作整个文档集的词云有不少人讲过，如何对文档集中的单篇文档制作TF-IDF词云，却很少人写过。参照别人的代码，自己花不少时间琢磨代码里的逻辑，改动后，终于能对文档集中的单篇文档制作TF-IDF词云了。...

2022-08-17 23:21:51 848 2

原创 import pyLDAvis as gensimvis报错

网上主要说跟pyLDAvis版本有关，但我使用pyLDAvis-3.3.1、pyLDAvis-2.1.2都会报这个错，说明错误是其他原因

2022-07-28 11:55:08 1219

原创【求助】关于Python中remove()函数的一点疑惑

Python的remove()函数没办法remove掉所有符合条件的元素

2022-07-17 10:04:40 209

原创 Python读取json文件，并将其写入excel

需要对一批谣言数据进行处理，该数据集是由清华大学自然语言处理与社会人文计算实验室整理的与疫情相关的谣言数据。数据集的整体构成如下，共有324个文件，皆放在rumor_weibo文件夹下：每个文件中存储着一个字典类型的数据（注意：字典并非放在列表中），该字典共由11个键值对对构成，如下：对每个键值对的详细描述可参看该数据集的官网，这里就不多说了，主要包括谣言的内容、发布时间、处理结果等。笔者想将这324个文件中的数据存储到一个excel中。1.Python读取json文件（1）首先以读取一个文

2021-04-18 20:25:17 6899 3

原创 Python之使用argparse在命令行读取文件

关于argparse之parser.add_argument()的用法，这篇文章有较为详细的讲解。因为作业需要，我需要在命令行读入txt文件，网上看了不少博客，都没有直接介绍，而小白在自己尝试的过程中踩了不少坑，尽管做法很简单。这里记在这里。1.在Python的shell中写一个 ArgparseTry.py 文件，其中的代码如下：import argparsedef readfile(path): with open(path,'r',encoding='utf-8-sig') as f:

2021-04-12 20:57:35 3872 1

原创基于维基百科英文语料的Word2Vec模型使用

关于这方面的知识还没有弄透彻模型使用的常用方法有（见博文）：另外还可参看gensim.Word2Vec的官方文档记在这里，以免后面忘掉了

2021-04-02 10:17:30 202

转载范数、归一化、正则化

最近刚接触机器学习，很多概念都不是很懂，找到几篇文章，记在这里，以后再看范数、正则化、归一化、标准化知乎上的高赞回答

2021-02-25 18:49:04 395

原创 TransE全文中文翻译(Translating Embeddings for Modeling Multi-relational Data)

AbstractWe consider the problem of embedding entities and relationships of multi-relational data in low-dimensional vector spaces. Our objective is to propose a canonical model which is easy to train, contains a reduced number of parameters and can scale

2021-02-08 14:22:55 2578

原创 pyltp安装报错(cl.exe缺失两个属性)的解决办法

最开始，我使用pip install pyltp安装，程序直接报错然后，在网上下载了.tar压缩文件，安装，依然报错，显示cl.exe缺失两个属性：这个错误应该和VC环境没有关系，因为我是使用VC的命令行进行安装的看网上经验，好像用.whl文件安装更好，这里有对应Python3.6版本的pyltp免费文件我电脑里的Python版本是3.7的，有的博主说可以将Python版本降成3.6的，也有的博主说，可以直接将.whl文件名对应的36字样改成37，我采用了后一种方法，很快地安装成功：..

2021-01-10 10:01:25 299

原创 pkuseg.test()函数使用的困惑

用pkuseg模块来进行分词，在使用pkuseg.test()函数时，遇到了一些问题1.当我像这样写代码时，程序一直在运行状态，跑不出结果import pkusegpkuseg.test('input.txt','output.txt',postag=True,nthread=20) 这里的’input.txt’是直接从网上贴的，其具体内容如下：我们都有一个家名字叫中国，兄弟姐妹都很多，景色也不错。男子倒车时将自己碾死，监控记录离奇过程小米今日有30多亿股限售股解禁，小米集团发布公告，称雷

2021-01-05 11:08:57 326

原创访问Django开发服务器

尝试了几次，都无法成功启动django开发服务器后来在网上看到了这篇博客，改了语句，访问成功

2020-12-05 20:30:22 174

原创基于py2neo(v4)的知识图谱小案例

这个项目网上很多大神都讲过，但都是用的py2neo(v2,v3)，这里对部分语句作了改动，使其在py2neo(v4)适用，主要改了以下语句hyp_node = self.graph.find_one( label=dis_label, property_key="name", property_value="高血压" )#from py2neo import Graph,Node,Relationship,Nod

2020-11-30 23:38:46 610

原创蓝桥杯：平方拆分之Python解答

B 平方拆分（2019年国赛第二题）本题总分：5 分【问题描述】将 2019 拆分为若干个两两不同的完全平方数之和，一共有多少种不同的方法？注意交换顺序视为同一种方法，例如 13^2 + 25^2 + 25^2 = 2019 与 13^2 + 35^2 +25^2 = 2019 视为同一种方法。【答案提交】这是一道结果填空的题，你只需要算出结果后提交即可。本题的结果为一个整数，在提交答案时只填写这个整数，填写多余的内容将无法得分。开始，对这个题目没啥头绪，后来参考了别人的代码，知道要用深搜，我

2020-11-13 16:02:40 591

原创蓝桥杯：序列求和之怎么跑都不会卡的Python解法

题目来自蓝桥2020.11.09的官微这道题我想尝试用Python求解，但程序跑得很慢，大概能在前2min内求出前50个Si。刚开始，我的思路是，对每一个数n，求出它的所有约数，然后再统计其约数个数，看其是否满足Si的条件，代码如下：def factor(n): i=1 fset=set() while i*i<(n+1): if n%i==0: fset.add(i) fset.add(n//i)

2020-11-09 21:45:03 205

原创蓝桥杯：数字三角形之Python解答

题目一问题描述：下图是一个数字三角形。请编一个程序计算从顶至底的某处的一条路径，使该路径所经过的数字的总和最大。　　●每一步可沿左斜线向下或右斜线向下走；　　●1＜三角形行数≤100；　　●三角形中的数字为整数0，1，…99；输入格式：文件中首先读到的是三角形的行数n。接下来n行描述整个三角形输出格式：最大总和（整数）样例输入:573 88 1 02 7 4 44 5 2 6 5样例输出：30这道题需要运用动态规划来进行解答，triL[ i ] [ j ]的值与其

2020-11-08 22:43:39 1906 3

原创使用筛法求N内的素数之Python解答

用筛法求之N内的素数。输入N输出0～N的素数样例输入100样例输出2357111317192329313741434753596167717379838997具体讲解可参考这里:用筛法求素数的基本思想是：把从1开始的、某一范围内的正整数从小到大顺序排列， 1不是素数，首先把它筛掉。剩下的数中选择最小的数是素数，然后去掉它的倍数。依次类推，直到筛子为空时结束。如有：1 2 3 4 5 6 7 8 9 1011 12 13 14 15 16

2020-11-04 12:55:50 3829 2

原创蓝桥杯：“最短路”之Python解答

问题描述：给定一个n个顶点，m条边的有向图（其中某些边权可能为负，但保证没有负环）。请你计算从1号点到其他点的最短路（顶点从1到n编号）。输入格式：第一行两个整数n, m。接下来的m行，每行有三个整数u, v, l，表示u到v有一条长度为l的边。输出格式：共n-1行，第i行表示1号点到i+1号点的最短路。样例输入：3 31 2 -12 3 -13 1 2样例输出：-1-2数据规模与约定：对于10%的数据，n = 2，m = 2。对于30%的数据，n <= 5，m &l

2020-11-03 17:00:17 1450 1

原创蓝桥杯：网络分析之Python求解

【问题描述】小明正在做一个网络实验。他设置了 n 台电脑，称为节点，用于收发和存储数据。初始时，所有节点都是独立的，不存在任何连接。小明可以通过网线将两个节点连接起来，连接后两个节点就可以互相通信了。两个节点如果存在网线连接，称为相邻。小明有时会测试当时的网络，他会在某个节点发送一条信息，信息会发送到每个相邻的节点，之后这些节点又会转发到自己相邻的节点，直到所有直接或间接相邻的节点都收到了信息。所有发送和接收的节点都会将信息存储下来。一条信息只存储一次。给出小明连接和测试的过程，请计算出每个节点

2020-10-11 20:30:41 246

原创蓝桥杯：BST插入节点问题之Python求解

【问题描述】给定一棵包含 N 个节点的二叉树，节点编号是 1 ∼ N。其中 i 号节点具有权值 W i ，并且这些节点的权值恰好形成了一棵排序二叉树 (BST)。现在给定一个节点编号 K，小明想知道，在这 N 个权值以外，有多少个整数 X (即 X 不等于任何 W i ) 满足：给编号为 K 的节点增加一个权值为 X 的子节点，仍可以得到一棵 BST。例如在下图中，括号外的数字表示编号、括号内的数字表示权值。即编号1 ∼ 4 的节点权值依次是 0、10、20、30。如果 K = 1，那么答案为 0

2020-10-10 22:13:59 588 2

原创蓝桥杯：矩阵之Python题解

【题目描述】把 1 ∼ 2020 放在 2 × 1010 的矩阵里。要求同一行中右边的比左边大，同一列中下边的比上边的大。一共有多少种方案？答案很大，你只需要给出方案数除以 2020 的余数即可。【解题思路】网上不少人给出了这道题的C语言解题代码，核心的思路是用动态规划，这里有比较详细的解析，在这里直接copy一下代码：#include <stdio.h>int DP[1011][1011];int main(){ int i, j; DP[1][0] = 1; for (

2020-10-07 19:29:51 810

原创蓝桥杯：REPEAT程序‘s 两种解法

题目描述【问题描述】附件 prog.txt 中是一个用某种语言写的程序。其中 REPEAT k 表示一个次数为 k 的循环。循环控制的范围由缩进表达，从次行开始连续的缩进比该行多的（前面的空白更长的）为循环包含的内容。例如如下片段：该片段中从 A = A + 4 所在的行到 A = A + 8 所在的行都在第一行的循环两次中。REPEAT 6: 所在的行到 A = A + 7 所在的行都在 REPEAT 5: 循环中。A = A + 5 实际总共的循环次数是 2 × 5 × 6 = 60

2020-09-30 20:43:47 1131

原创使用Python制作彩色气泡图

最终实现的效果如图：主要的步骤如下：1.从.xlsx文件中读出制图所需要的的数据2.使用matplotlib库绘图并保存完整代码如下：# -*- coding: utf-8 -*-"""Created on Wed Aug 26 21:54:42 2020@author: Milk"""#import pandas as pdimport matplotlib.pyplot as pltimport xlrd'''下面两行决定中文字体的显示'''plt.rcParams[

2020-08-26 23:52:04 3202

原创使用svg制作作品引用关系图

在一个老师的讲座中看到了一张用svg制作的文献引用时间差的图，后来觉得自己在做的一个课题也可以用类似的表达。最终用svg做出来的效果图大致如下：由于是初次接触svg，这里将实现这个效果所涉及的基本操作记在这里。1.画一条带刻度的水平线 <line stroke-linecap="undefined" stroke-linejoin="undefined" id="svg_1" y2="300" x2="539" y1="300" x1="35" stroke-width="0.4" str

2020-06-23 11:04:25 759

原创 Beautiful Soup库入门(标签树、基本元素、遍历、输出)

本文为北理嵩天老师《Python网络爬虫与信息提取》学习笔记。本文含有以下内容：一、BeautifulSoup库、html文档、标签树三者间关系二、使用Beautiful Soup库最基本的语句：三、BeautifulSoup类的基本元素四、HTML树形结构有三种遍历方法：五、基于bs4库的HTML格式输出Beautiful Soup库能够对提供给它的任何格式进行爬取，并且进行属性解析。在爬虫中，常被用来解析html和xml页面。一、BeautifulSoup库、html文档、标签树三者间关系Bea

2020-05-16 12:22:32 2879

原创网络爬虫之添加头信息、提交关键词、保存图片

爬取亚马逊上的一本书1.使用requests库的get方法获得链接信息，并查看状态码import requestsr=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y")r.status_code输出的结果为：503，表明访问出现了错误2.查看网页页面内容r.encoding=r.apparent_encodingr.text结果如下：（或许英文中也有关于API的提醒）这表明访问出错，但这个错误是API造成的。如果

2020-05-15 09:42:10 445

李宏毅机器学习学习笔记

Python安装第三方库笔记

空空如也