- 博客(368)
- 资源 (2)
- 问答 (5)
- 收藏
- 关注
原创 PageRank 算法初步了解
##前言因为想做一下文本自动摘要,文本自动摘要是NLP的重要应用,搜了一下,有一种TextRank的算法,可以做文本自动摘要。其算法思想来源于Google的PageRank,所以先把PageRank给了解一下。##马尔科夫链我感觉说到PageRank,应该要提起马尔科夫链,因为PageRank在计算的过程中,和马尔科夫链转移是十分相似的,只是PageRank在马尔科夫链的转移上做了一些改动。...
2020-03-16 14:00:52 607
原创 LeetCode 1 Two Sum
题目class Solution {public: vector<int> twoSum(vector<int>& nums, int target) { vector<int> res; for(int i=0;i<nums.size();i++) {...
2019-07-03 19:48:17 251
原创 文本分类学习 (十)构造机器学习Libsvm 的C# wrapper(调用c/c++动态链接库)
前言: 对于SVM的了解,看前辈写的博客加上读论文对于SVM的皮毛知识总算有点了解,比如线性分类器,和求凸二次规划中用到的高等数学知识。然而SVM最核心的地方应该在于核函数和求关于α函数的极值的方法:SMO算法(当然还有很多别的算法。libsvm使用的是SMO,SMO算法也是最高效和简单的),还有松弛变量。。毕设答辩在即,这两个难点只能拖到后面慢慢去研究了。于是我便是用了LibSvm,也就是台湾...
2019-07-03 19:41:27 472
原创 文本分类学习 (九)SVM入门之拉格朗日和KKT条件
上一篇说到SVM需要求出一个最小的||w|| 以得到最大的几何间隔。求一个最小的||w|| 我们通常使用来代替||w||,我们去求解 ||w||2 的最小值。然后在这里我们还忽略了一个条件,那就是约束条件,在上一篇的公式(8)中的不等式就是n维空间中数据点的约束条件。只有在满足这个条件下,求解||w||2的最小值才是有意义的。思考一下,若没有约束条件,那么||w||2的最小值就是0,反应在图中...
2019-07-03 19:40:36 282
原创 文本分类学习 (八)SVM 入门之线性分类器
SVM 和线性分类器是分不开的。因为SVM的核心:高维空间中,在线性可分(如果线性不可分那么就使用核函数转换为更高维从而变的线性可分)的数据集中寻找一个最优的超平面将数据集分隔开来。所以要理解SVM首先要明白的就是线性可分和线性分类器。可以先解释这张图,通过这张图就可以了解线性分类器了。这是一个在二维平面的图。其中实心点和空心点是分别属于两类的,Origin 是原点。先看中间那条直线,中间...
2019-07-03 19:39:42 510
原创 文本分类学习 (七)支持向量机SVM 的前奏 结构风险最小化和VC维度理论
前言:经历过文本的特征提取,使用LibSvm工具包进行了测试,Svm算法的效果还是很好的。于是开始逐一的去了解SVM的原理。SVM 是在建立在结构风险最小化和VC维理论的基础上。所以这篇只介绍关于SVM的理论基础。目录:文本分类学习(一)开篇文本分类学习(二)文本表示文本分类学习(三)特征权重(TF/IDF)和特征提取 文本分类学习(四)特征选择之卡方检验文本分...
2019-07-03 19:38:33 1018
原创 文本分类学习(六) AdaBoost和SVM
直接从特征提取,跳到了BoostSVM,是因为自己一直在写程序,分析垃圾文本,和思考文本分类用于识别垃圾文本的短处。自己学习文本分类就是为了识别垃圾文本。中间的博客待自己研究透彻后再补上吧。因为获取垃圾文本的时候,发现垃圾文本不是简单的垃圾文本,它们具有多个特性:种类繁多,难有共同的特征。涵盖各行各业的广告,或者政治敏感内容,或者色情信息。不像对文本分类那样,属于一类的文本,他们的内容都...
2019-07-03 19:37:29 1624
原创 文本分类学习 (五) 机器学习SVM的前奏-特征提取(卡方检验续集)
前言:上一篇比较详细的介绍了卡方检验和卡方分布。这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行。然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样就完美了。目录:文本分类学习(一)开篇文本分类学习(二)文本表示文本分类学习(三)特征权重(TF/IDF)和特征提取 文本分类学习(四)特征选择之卡方检验文本分类学习(...
2019-07-03 19:36:38 1606 4
原创 文本分类学习 (四) 特征选择之卡方检验
前言:上一篇提到了特征提取,或者叫做降维。在文本分类中,特征提取算法的优劣对于文本分类的结果具有非常大的影响。 所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。之前对卡方检验做过介绍:卡方检验是通过对特征进行打分然后排序,选择排名靠前的特征来表示文本。目录:文本分类学习(一)开篇文本分类学习(二)文本表示文本分类学...
2019-07-03 19:35:52 1659 3
原创 文本分类学习(三) 特征权重(TF/IDF)和特征提取
上一篇中,主要说的就是词袋模型。回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示。首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的向量。这样每个文本在分词之后,就可以根据我们之前得到的词袋,构造成一个向量,词袋中有多少个词,那这个向量就是多少维度的了。然后就把这些向量交给计算机去计算,而不再需要文本啦。而向量中的数字表示的是每个...
2019-07-03 19:35:05 3204 3
原创 文本分类学习(二)文本表示
接着上一篇。在正式的尝试使用文本分类算法分类文本的时候,我们得先准备两件事情: 一,准备适量的训练文本;二,选择合适的方法将这些训练文本进行表示(也就是将文本换一种方式表示)大家都知道文本其实就是很多词组成的文章啊。所以很自然的就想到用一系列词来表示文本。比如我这篇文章,将其分词之后的结果就是:(“接着”,“上”,“一篇”,“在”,“正式”…)这里有很多分词工具可以办到,如果不知道使用何种分...
2019-07-03 19:34:03 1162 1
原创 HttpClient参观记:.net core 2.2 对HttpClient到底做了什么?
.net core 于 10月17日发布了 ASP.NET Core 2.2.0 -preview3,在这个版本中,我看到了一个很让我惊喜的新特性:HTTP Client Performance Improvements ,而且在Linux上性能提升了60% !之前就一直苦于 HttpClient 的糟糕特性,大家耳熟能详的 You are using HttpClient wrong。...
2019-07-03 19:32:08 564
原创 文本分类学习(一):开篇
今天开始,就要认真开始对待文本分类,在此之前只是稀疏的看过一些博客,了解一下贝叶斯分类。之所以要学习文本分类,是因为我做的毕业设计就是关于文本分类和机器学习的。突然感觉到时间不太够用了,而摆在我面前的实际上是一个很浩大的工程,不得不抓紧时间开始研究。至于为什么毕业设计会选择文本分类算法,因为觉得现在机器学习很热门,不会点都不好意思说自己是搞计算机科学的,其次我想把自己的毕业设计可以和工作结合,并充...
2018-09-06 14:58:48 755
原创 汉字字典树
字典树的概念我就不说了,不过大多题目都是英文的字典树,我就闲的蛋疼去写了中文的字典树,实现起来也挺简单的。#include <iostream>#include <string.h>#include <stdlib.h>#include <stdio.h>#include <map>using namespace std;...
2018-03-31 17:43:38 1061
原创 Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有了Core 2.0版本(4.8.0 bate版),而PanGu分词,目前有人正在做,貌似已经做完,只...
2018-03-28 14:42:35 1558
原创 Nginx 日志 worker_connections are not enough while connecting to upstream
记一次,排查错误所遇到的问题,和学习到的内容。上周五,刚上线的项目出现了503 ,查看日志发现如下内容:System.Exception: Request api/blogpost/zzkDocs<html>^M<head><title>500 Internal Server Error</title></head>^M<bo...
2018-03-28 14:40:41 10322
原创 Int32 最大的数值是多少???(附十进制十六进制相互转换且包含正负数的java代码)
正数转二进制很简单,转十六进制也很简单。那么负数的情况下呢?在计算机中无法识别你给的符号“+”,"-",计算机只认识0和1 那么在二进制中如何表示负数。 先简单介绍一下负数如何转二进制,八进制,十六进制:比如给的是-4那么先算出+4的二进制表示:1 0 0但是请记住我们需要在前面补0,因为在计算机中一个Int32为的数字是一个长度为32的内存空间,计算机眼里0000 0000 0000 0000 ...
2018-03-28 14:38:58 10440
原创 一道网易面试编程题
一条长为n的路,需要用路灯点亮,其中"."表示需要点亮的位置,"X"表示无需点亮的位置,假设灯立在i处,则它可以点亮i-1,i,i+1三个位置,问至少需要多少灯才能点亮整条路。 乍一看,肯定是动态规划:上代码,敲了两个小时的动态规划:#include <iostream>#include <stdio.h>#include <string>#include...
2018-03-28 14:22:41 574
原创 温故KMP算法
最近由于某些原因,又回顾了一次KMP算法。上一次回顾KMP算法还是在刷题的时候遇到的:http://blog.csdn.net/dacc123/article/details/50994611在我的记忆力,每次回顾KMP算法都会有新的理解,以为自己理解的很透彻了,等过一段时间再去回顾,又要花一些时间去弄门清。这次也一样。 刚接触Next数组的时候我很反感字符串前缀和后缀的最长公共子串的长度来解释n...
2018-03-20 10:29:11 294
原创 Lucene.net(4.8.0)+PanGu分词器 问题记录一 分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有了Core 2.0版本,4.8.0 bate版,而PanGu分词,目前有人正在做,貌似已经做完,只是
2017-12-13 20:38:38 1678
原创 Git 使用篇二:小组协作开发
上一片搭建了git远程服务器,那么小组成员在使用git开发的时候都有什么要注意的。第一步: 首先每个小组成员,在自己本地建立一个目录,作为工作空间,再去git clone 这个远程仓库: git clone git@xxxxx:/xxx/xxx.git第二步: 一般的,小组成员需要建立属于自己的分支,每个分支代表着开发不同的功能 git branch dev1//创立一个名字叫de
2017-09-27 14:06:17 2428
原创 Git 使用篇二:搭建远程服务器
一般做一个私人的项目,不希望开源的,是不会放在GitHub上的,这个时候我们需要建里一个自己的Git远程服务器,方便小组成员开发。这里以Centos云服务器为例:第一步 如果自己的服务器没有git账号,可以先配置一个git账号(当然不用git账号也可以)$ sudo useradd git$ sudo passwd git 123456 //设置git账号的密码第二步 创建一个git仓库$
2017-09-27 13:50:14 1824
原创 Git 使用篇一:初步使用GitHub,下载安装git,并上传项目
首先在MAC上怎么操作。在gitHub创立一个账户,在创立一个项目,这就不用我说了对吧。创建完之后是这样的: 接下来,我们打开https://brew.sh这是下载homebrew的网站,homebrew 是干嘛的呢,其实就是一个下载工具,我们用这个来下载git 就是类似windows的gitBash 直接把inst
2017-09-27 12:33:41 520
原创 Docker 学习应用篇三:使用docker搭建的环境,安装thinksns
Thinksns 是一个开源的社交网站,因为目前的项目需要用到这个,所以就下载一个安装试试看。之前在windows上用了wamp,安装的很顺利。但是项目是要部署到linux上的。于是我便用了Docker 作为Docker的初学者,确实又是一个学习Docker的好机会。安装thinksns,至少要apache或者nignx,然后数据库mysql,还有一个php的运行环境。自己又不会写DockerFi
2017-09-17 15:06:28 775
原创 Memcached 简单利用和简单了解(Mac的安装和使用)
Memcached 是一种用于分布式应用的一种缓存机制。应用也比较广泛。这里来学习一下。首先Memcached 是分布式网站架构都需要用到的缓存机制。缓存就是服务器利用多余的空间上开辟了一个储存空间,在这片储存区域中,我们放入key-value形式的数据。这样的话,前端发来的请求在这片缓存中如果可以得到解决,就不要去访问数据库了。在Web中,最耗费时间的操作就是去数据库中查询,取出数据
2017-08-29 15:37:03 3433
原创 服务器推技术研究Comet
服务器推技术最近参与的一个关于股票的项目,有这样一个需求。服务器需要主动推送给客户端消息。这和传统的Web模式不同。传统的Web系统,客户端和服务器的交互是这样的:客户端向服务器发送一个http请求,
2017-08-25 18:40:35 410
原创 java后台设计简单的json数据接口,设置可跨域访问,前端ajax获取json数据
在开发的过程中,有时候我们需要设计一个数据接口。有时候呢,数据接口和Web服务器又不在一起,所以就有跨域访问的问题。第一步:简单的设计一个数据接口。数据接口,听起来高大上,其实呢就是一个简单的Serlvlet,在有get的请求的时候,返回我们要提供的数据就可以。现在JSON数据格式已经很普遍,因为很方便,所以我们做一个json数据的接口。直接看代码先建立一个
2017-08-24 10:00:07 7604
原创 java 多线程研究:锁的概念
java多线程:锁java的多线程中的锁是干嘛的呢?在网上找了很多博客,大都是很专业的语言,让我一时间摸不着头脑。下面分三个部分来总结多线程中的锁的概念。一,基础概念:多线程在运行的时候可能会遇到这样的问题,多个线程要用到同一个资源,那么可能会出现错乱,比如线程要改动资源里的数据,那么多个线程同时改就乱了套了。就像公共厕所,必须要一个一个接着上,不能两个人或者多个人同时上。那么锁这个东西就是像厕所
2017-08-18 19:22:56 3461 3
原创 PHP 学习笔记之一:thinkPHP的volist标签
Volist标签主要用于在模板中循环输出数据集或者多维数组。属性:name : 必须,输出数据模板变量,后台提供的变量。 id : 必须,是循环变量,可以随便定义,但是不能跟name相同。举个栗子:<volist name="user" id="vo"> {$vo.name}</volist>后台传入user变量$this->assign('user',$user);这样就循环输
2017-08-08 10:54:19 3914 1
原创 Flask 学习篇二:学习Flask过程中的记录
Flask学习笔记:GitHub上面的Flask实践项目https://github.com/SilentCC/FlaskWeb1.Application and Request Context(上下文)在Flask 中,一般一个view function(视图函数)会处理一个请求Flask 中提供request context.保证全局只有一个线程
2017-07-30 12:55:36 714
原创 CodeForces 832B Petya and Exam
B. Petya and Examtime limit per test2 secondsmemory limit per test256 megabytesinputstandard inputoutputstandard outputIt's hard times now. Today Petya needs to
2017-07-26 07:34:09 694
原创 CodeForce 832A Sasha and Sticks
A. Sasha and Sticks time limit per test2 seconds memory limit per test256 megabytes inputstandard input outputstandard output It’s one more school day now. Sasha doesn’t like classes and is always
2017-07-26 07:32:22 553
原创 Docker 学习应用篇之二: Docker的介绍和安装
之前说过Docker的好处,Docker可以集装箱化的部署应用程序。那么Docker是通过什么实现的呢。要理解Docker内部构建,需要先理解Docker的四种部件 images:镜像,docker镜像是docker容器运行时的模板,一个镜像就是一个应用程序的模板。比如我用Docker创建一个Ubuntu,那就得 建立一个ubuntn的镜像,这个镜像就像是印
2017-07-25 16:22:54 434
原创 Docker 学习应用篇之一: 初识Docker
Docker 自从2013年以来就非常的火热,无论是从github上的代码活跃度,还是Redhat在RHE6.5中集成对Docker的支持,等等。第一次接触Docker,还是老师给我们介绍的。 1.初识Docker 一开始接触Docker不知道它是干啥的。百度了一下,Docker是为开发者和系统管理员设计的,用来发布和运行分布式应用程序的一个开放性平台。Docker是一种Linux容器工具
2017-07-25 11:56:37 403
原创 PHP 正则表达式抓取网页内容。
我想用php抓取爱奇艺生活类型视频网页里面的元素,应该如何去做呢?首先我要非常熟悉正则表达式,关于正则表达式的学习,我会写一篇博客一直学习的。直接举例子:这是一个爱奇艺生活视频的界面的网址$url="http://www.iqiyi.com/v_19rrb1wlpw.html";php的file_get_contents()函数,是把网页里的源码全部变成字符串读
2017-07-23 20:53:29 6143
原创 FZU 2252 Yu-Gi-Oh!(枚举+贪心)
Problem 2252 Yu-Gi-Oh!Accept: 105 Submit: 628Time Limit: 1000 mSec Memory Limit : 32768 KB Problem Description另一个平行宇宙的YellowStar,是一名游戏王决斗者,某一天它正在进行一场决斗,它的场面上拥有A只磁石战士a,B只磁石战士β,C只磁
2017-07-23 18:58:12 509
原创 Flask 学习篇一: 搭建Python虚拟环境,安装flask,并设计RESTful API。
首先了解Flask是一个Web应用框架,它是用Python写的。 在Flask框架下,我们开发一个简单的网页。
2017-05-09 18:49:56 949
原创 天梯赛 大区赛 L3-014.周游世界 (Dijkstra)
L3-014. 周游世界时间限制200 ms内存限制65536 kB代码长度限制8000 B判题程序Standard作者陈越周游世界是件浪漫事,但规划旅行路线就不一定了…… 全世界有成千上万条航线、铁路线、大巴线,令人眼花缭乱。所以旅行社会选择部分运输
2017-04-16 11:38:58 1121
Linux 系统下,如何用C#获取系统环境变量
2017-12-25
Asp.NET Core2.0部署在Linux上出问题
2017-12-21
MyEcplise 立web,无法显示css的正常效果
2016-12-24
求高手解决ajax向服务器传送数据的问题
2016-06-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人