qq280929090-CSDN博客

原创基于Zotero和坚果云的大规模文献同步管理环境配置及常用功能介绍（超详细）

本博客主要介绍一些安装步骤，至于为什么使用这套文献管理方法或者一些专有名词并不做出相应的解释，同步的设置在家、在学校、在宿舍还是应该写得小白一点，因为做学术的有方方面面的人，计算机只是一小部分，如果写得太专业，其它研究方向的人就看不懂了即使使用外部阅读器也没区别，因为我在每台电脑上面都会安装福晰阅读器...

2020-11-16 20:11:15 1815 1

原创基于Visual Studio Code的 LaTeX环境配置及使用示例（超详细）

　　本博客主要介绍如何在Visual Studio Code (VS Code)上配置LaTeX的编写环境，主要包括如下几个软件/工具的安装配置以及正反向搜索的配置：TeX LiveVS Code（含插件）SumatraPDF1. TeX Live 　　在这里我们采用在线安装的方式安装TeX Live，具体执行步骤如下：在TeX Live下载界面选择适合自己...

2020-02-17 18:46:01 55264 15

原创拉普拉斯矩阵（Laplacian matrix）及其变体详解

　　拉普拉斯矩阵(Laplacian matrix) 也叫做导纳矩阵、基尔霍夫矩阵或离散拉普拉斯算子，是图论中用于表示图的一种重要矩阵。定义　　给定一个具有nnn个顶点的简单图G=(V,E)G=(V, E)G=(V,E)，VVV为顶点集合，EEE为边集合，其拉普拉斯矩阵可定义为：L=D−AL=D-AL=D−A其中A∈Rn×nA \in \mathbb{R}^{n \t...

2019-12-18 10:36:27 31972 1

原创常见特征缩放方法详解（含义、作用、适用场景）

本博客致力于整理出KDD/SIGKDD 2019接收的所有论文，包括题目、作者、摘要等重要信息，能够方便广大读者迅速找到自己领域相关的论文。

2019-07-26 08:45:56 6113

原创 ICML 2019 Accepted Papers (Title, Author, Abstract, Code) (001-150)

Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:...

2019-07-14 08:14:27 6079

转载经典的文本数据预处理流程（转）

首先对文本进行分词，因为可以直接用NLTK的分词器，中文的可以用结巴分词在英文中，往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POS Tag可以更好的进行词形归一。去除停用词，得到最终的词列表本文转自：https://blog.csdn.net/yc1203968305/article/details/79062182...

2018-06-25 14:48:07 1121

最近半年一直忙于项目，博客也很少更新咯。有几个项目做了不少JS相关的工作，基本都可以利用现成的开源方案，诸如angularJs、requireJs、bootstrap、knockoutJs、TypeScript、Jquery等等；之后也有项目是无UI的，纯后端的内容，主要就是考虑并行、性能、模块化等；之后的很长一段时间便主要在处理文本挖掘相关的项目（英文项目）。今天正好有空也准备对文本挖掘预处理的...

2018-06-25 14:40:07 809

转载文本分类的数据预处理流程介绍

　　在进行文本分类时，毫无疑问会涉及到对文本数据进行预处理，包括文档切分、文本分词、去停用词（包括标点、数字、单字和其它一些无意义的词）、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍，具体的实现还有待慢慢的研究。文档切分　　文档切分这个操作是可选的，取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的，那么这一步就可以省略了。反之，如...

2018-06-25 13:01:07 4513

转载英文文本挖掘预处理流程总结（转）

特点　　英文文本的预处理方法和中文的有部分区别。首先，英文文本挖掘预处理一般可以不做分词（特殊需求除外），而中文预处理分词是必不可少的一步。第二点，大部分英文文本都是uft-8的编码，这样在大多数时候处理的时候不用考虑编码转换的问题，而中文文本处理必须要处理unicode的编码问题。这两部分我们在中文文本挖掘预处理里已经讲了。　　而英文文本的预处理也有自己特殊的地方，第三点就是拼写问题，很...

2018-06-25 12:54:05 1037

转载中文文本挖掘预处理流程总结（转）

　　在对文本做数据分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就对中文文本挖掘的预处理流程做一个总结。中文文本挖掘预处理特点　　中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。　　第一，中文文本是没有像英文的单词空格那样隔开的，因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词，在文本...

2018-06-24 16:44:57 584

转载 Sigmoid函数

Sigmoid函数是一个有着优美S形曲线的数学函数，在逻辑回归、人工神经网络中有着广泛的应用。Sigmoid函数的数学形式是： f(x)=11+e−x其函数图像如下：可以看出，sigmoid函数连续，光滑，严格单调，以(0,0.5)中心对称，是一个非常良好的阈值函数。当x趋近负无穷时，y趋近于0；趋近于正无穷时，y趋近于1；x=0时，y=0.5。当然，在x超出[-6,6]的范围后，函数值基本上没...

2018-06-01 21:07:08 5134

原创【自然语言处理】英文开源工具汇总（）

本博客主要是对网络上的一些关于英文自然语言处理开源工具的博客进行整理、汇总，如果有涉及到您的知识产权等，请联系本人已进行修改，也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1 斯坦福大学语言：Java功能：分词、词性标注、命名实体识别、语法解析、分类。介绍：Stanford NLP Group是斯坦福大学自然语言处理的团队，开发了多个NLP工具，官网网址。由...

2018-03-24 10:17:06 1487

原创【自然语言处理】中文开源工具汇总（7种）

本博客主要是对网络上的一些关于中文自然语言处理开源工具的博客进行整理、汇总，如果有涉及到您的知识产品等，请联系本人已进行修改，也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1 IKAnalyzer语言：Java功能：支持细粒度和智能分词两种切分模式；支持英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符；支持用户自定义的词典，通过配置IKAnalyzer...

2018-03-24 09:35:10 8354

转载【Python学习】Counter()计数工具

class collections.Counter([iterable-or-mapping])Counter 是实现的 dict 的一个子类，可以用来方便地计数。例子举个计数的例子，需要统计一个文件中，每个单词出现的次数。实现方法如下# 普通青年d = {}with open('/etc/passwd') as f: for line in f: for word i...

2018-03-22 15:09:25 7240

转载【深度学习】batch size详解

谈谈深度学习中的 Batch_SizeBatch_Size（批尺寸）是机器学习中一个重要参数，涉及诸多矛盾，下面逐一展开。首先，为什么需要有 Batch_Size 这个参数？Batch 的选择，首先决定的是下降的方向。如果数据集比较小，完全可以采用全数据集（ Full Batch Learning ）的形式，这样做至少有 2 个好处：其一，由全数据集确定的方向能够更好地代表样本总体，从而更准确地...

2018-03-22 14:45:42 4968

转载【深度学习】多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)

1. 前言在机器学习中，我们通常关心优化某一特定指标，不管这个指标是一个标准值，还是企业KPI。为了达到这个目标，我们训练单一模型或多个模型集合来完成指定得任务。然后，我们通过精细调参，来改进模型直至性能不再提升。尽管这样做可以针对一个任务得到一个可接受得性能，但是我们可能忽略了一些信息，这些信息有助于在我们关心的指标上做得更好。具体来说，这些信息就是相关任务的监督数据。通过在相关任务间共享表示信...

2018-03-22 09:28:02 3697

转载【Python学习】标准库--pathlib

导入Path类from pathlib import Path1创建Path对象p = Path('C:\Windows\System32') # 用C:\Windows\System32创建Path对象1打印p中路径print(p)1p的父路径p.parent1所有p的祖辈路径p.parents #返回一个列表，序号越大离p越远1p目录下的所有文件p.iterdir() # 返回一个迭代器...

2018-03-20 00:39:42 392

原创【Python学习】特殊函数 call()

__call__在Python中，函数其实是一个对象：>>> f = abs>>> f.__name__'abs'>>> f(-123)123由于 f 可以被调用，所以，f 被称为可调用对象。所有的函数都是可调用对象。>>> p = Person('Bob', 'male')>>> p('T

2018-03-18 20:45:57 276

原创【Python学习】函数参数：必选参数、默认参数、可变参数、关键字参数、参数组合

定义函数的时候，我们把参数的名字和位置确定下来，函数的接口定义就完成了。对于函数的调用者来说，只需要知道如何传递正确的参数，以及函数将返回什么样的值就够了，函数内部的复杂逻辑被封装起来，调用者无需了解。Python的函数定义非常简单，但灵活度却非常大。除了正常定义的必选参数外，还可以使用默认参数、可变参数和关键字参数，使得函数定义出来的接口，不但能处理复杂的参数，还可以简化调用者的代码。必选参数我...

2018-03-18 20:34:36 922

转载【Python学习】collections模块的Counter类

1.collections模块collections模块自Python 2.4版本开始被引入，包含了dict、set、list、tuple以外的一些特殊的容器类型，分别是：OrderedDict类：排序字典，是字典的子类。引入自2.7。namedtuple()函数：命名元组，是一个工厂函数。引入自2.6。Counter类：为hashable对象计数，是字典的子类。引入自2.7。deque：双向队列...

2018-03-18 12:46:44 753

转载【Linux学习】Anaconda多环境多版本python配置指导

最近学python，读完了语法后在GitHub找了一些练习来做，由于学的是python3.x语法，而GitHub上的好多练习源码都是基于2.x的，有些module在python3.x上没有，因此为装这些包折腾了好久，浪费了好些时间，这两天才发现Anaconda这个神奇的软件，一些常用的包都打包在里边了。安装完成之后也遇到了不少麻烦，可能是由于初学，不习惯用命令行的缘故，因此网上有不少中文教程，但总...

2018-03-16 19:36:57 1587

转载【深度学习】batch_size的作用

首先，为什么需要有 Batch_Size 这个参数？Batch 的选择，首先决定的是下降的方向。如果数据集比较小，完全可以采用全数据集（ Full Batch Learning ）的形式，这样做至少有 2 个好处：其一，由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。其二，由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。 Full Batch Learn...

2018-03-16 19:25:44 3105

原创【Python学习】argparse用法总结

First:2018-03-161. argparse介绍是python的一个命令行解析包，非常编写可读性非常好的程序2. 基本用法prog.py是我在linux下测试argparse的文件，放在/tmp目录下，其内容如下：#!/usr/bin/env python# encoding: utf-8import argparseparser = argparse.ArgumentPars...

2018-03-16 12:40:19 420

转载【Java学习】Java方法的静态绑定与动态绑定讲解

转载请注明原文地址：http://www.cnblogs.com/ygj0930/p/6554103.html 一：绑定把一个方法与其所在的类/对象关联起来叫做方法的绑定。绑定分为静态绑定（前期绑定）和动态绑定（后期绑定）。二：静态绑定静态绑定（前期绑定）是指：在程序运行前就已经知道方法是属于那个类的，在编译的时候就可以连接到类的中，定位到这个...

2018-03-13 19:07:25 200

转载【Java学习】java语言的执行模式--半编译和半解释型

1，相关概念 1）编译方式：编译方式把源程序的执行过程严格地分成两大步：编译和运行。 ①把源程序全部翻译成目标代码 ②运行目标代码，获取执行结果。 2）解释方式：源程序输入到计算机后，解释程序将程序逐句翻译，翻译一句执行一句边翻译边执行，不产生目标程序。解释方式是按照远程序中语句的动态顺序，直接地逐句进行分析解释，并立即执行。解释的过程：在程序执行时开始翻译代码为二...

2018-03-10 13:55:28 2587

转载【机器学习】损失函数：Hinge Loss（max margin）

Hinge Loss简介Hinge Loss是一种目标函数（或者说损失函数）的名称，有的时候又叫做max-margin objective。其最著名的应用是作为SVM的目标函数。其二分类情况下，公式如下： l(y)=max(0,1−t⋅y)其中，y是预测值（-1到1之间），t为目标值（±1）。其含义为，y的值在-1到1之间就可以了，并不鼓励|y|>1，即并不鼓励分类器过度自信，让某个可以正确...

2018-01-28 11:25:06 1480

转载【Java学习】classpath和路径的使用

javac -classpath的使用：javac：如果当前你要编译的java文件中引用了其它的类(比如说：继承)，但该引用类的.class文件不在当前目录下，这种情况下就需要在javac命令后面加上-classpath参数，通过使用以下三种类型的方法来指导编译器在编译的时候去指定的路径下查找引用类。(1).绝对路径：javac -classpath c:/junit3.8.1/junit.ja...

2018-01-18 10:13:02 270

原创【自然语言处理】标注体系：IO, BIO, BMEWO, and BMEWO+

IO EncodingThe simplest encoding is the IO encoding, which tags each token as either being in (I_X) a particular type of named entity type X or in no entity (O). This encoding is defective in that it ...

2018-01-09 12:45:51 8839

转载【Python学习】位置参数和关键字参数分析

刚学用Python的时候，特别是看一些库的源码时，经常会看到func(*args, **kwargs)这样的函数定义，这个*和**让人有点费解。其实只要把函数参数定义搞清楚了，就不难理解了。先说说函数定义，我们都知道，下面的代码定义了一个函数funcAdef funcA(): pass 显然，函数funcA没有参数（同时啥也不干:D）。下面这个函数funcB就有两个参数了，def func...

2018-01-05 20:43:04 2133

原创【Python学习】Python Error : ImportError: No module named 'xml.etree'

因为下载的python当中，已经包含了xml.py文件，或者名为xml的文件夹。在导入模块的时候，python的机制是会默认从当前项目的目录开始。所以，在项目里面，不能存在名为xml的py文件（即xml.py），也不能存在名为xml的文件夹...

2017-12-21 09:31:34 5199

原创【机器学习】深入理解--信息熵（Information Entropy）

信息信息是我们一直在谈论的东西，但信息这个概念本身依然比较抽象。在百度百科中的定义：信息，泛指人类社会传播的一切内容，指音讯、消息、通信系统传输和处理的对象。信息可不可以被量化，怎样量化？人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。起码直觉上而言是可以的，不然怎么可能我们觉得有些人说的废话特别多，“没什么信息量”，有些人一语...

2017-09-29 16:50:16 16409 1

转载【Python学习】python3 NameError: name 'xrange' is not defined

问题：for x in xrange(1,10,2): if x==5: continue print(x)12345for x in xrange(1,10,2): NameError: name ‘xrange’ is not defined解决：在3中，xrange由range替代for x in range(1,10,2): if x==5: ...

2017-09-10 19:45:37 1135

转载【Python学习】同时安装了python2和python3，如何使用pip

国内网站解法把其中一个python.exe改名字，即python.exe和pythonw.exe改为python2.exe和pythonw2.exe，但是被修改了名字的python对应的pip无法使用官方解法Python社区：我们在安装Python3（>=3.3）时，Python的安装包实际上在系统中安装了一个启动器py.exe，默认放置在文件夹C:\Windows\下面。这个启动器允许我们...

2017-09-10 19:30:47 431

原创 CSDN Markdown的使用

本博客首先参考了王海庆老师关于markdown的教学视频和博客，视频网址为：markdown教学视频1、Markdown1.1、Markdown的定义1.2、Markdown的优缺点2、Markdown的基本语法2.1、文本格式化2.1.1、斜体斜体有以下几种方式： 1. 使用方式一如下图：即将需要倾斜的文字放入两个*号中间。 2. 使用方式二如下图：即将需要倾斜的文字放入两

2017-08-01 20:21:41 409

转载查看windows操作系统的默认编码

如何查看操作系统字符集？在Windows平台下，进入DOS窗口，输入：chcp可以得到操作系统的代码页信息，你可以从控制面板的语言选项中查看代码页对应的详细的字符集信息。例如：我的活动代码页为：936，它对于的编码格式为GBK。转自于：http://blog.csdn.net/java_belucky/article/details/18311225

2017-07-11 11:00:11 7591

原创【Java学习】命令行下编译java程序，出现错误：编码GBK的不可映射字符

原因：由于JDK是国际版的，在编译的时候，如果我们没有用-encoding参数指定我们的JAVA源程序的编码格式，则javac.exe首先获得我们操作系统默认采用的编码格式，也即在编译java程序时，若我们不指定源程序文件的编码格式，JDK首先获得操作系统的file.encoding参数(它保存的就是操作系统默认的编码格式，如WIN2k，它的值为GBK)，然后JDK就把我们的java源程序从fil...

2017-07-11 10:56:01 865

转载【机器学习】k-折交叉验证（k-fold cross-validation）

k-重交叉验证(k-fold crossValidation)：在机器学习中，将数据集A 分为训练集（training set）B和测试集（testset）C，在样本量不充足的情况下，为了充分利用数据集对算法效果进行测试，将数据集A随机分为k个包，每次将其中一个包作为测试集，剩下k-1个包作为训练集进行训练。在matlab中，可以利用：indices=crossvalind(‘Kf...

Janyce Wiebe等人所开发的MPQA(Multiple-Perspective QA)库：包含535 篇不同视角的新闻评论，它是一个进行了深度标注的语料库。其中标注者为每个子句手工标注出一些情感信息，如观点持有者、评价对象、主观表达式以及其极性与强度。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人