自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 关于从mysql中输出内容的权限设置问题

看到别人的博客中说只有mysql5.7以上的才有这个权限问题,一来二去调不好于是果断换成了mysql5.5,但是换成mysql5.5之后却发现一样会存在数据读出权限问题,然后根据网上的方法,将my.ini配置文件加入了权限设置语句。原来用mysql5.7的时候,直接在cmd当中停掉服务就可以了,但是后来mysql5.5的安装方法和5.7的安装方法不一样,设置成为了开机启动,不知道是不是这个原因,没...

2018-04-03 17:17:33 238

原创 关于mysql无法单独输出数据以及navicat for mysql 的那些坑

之前我用的是mysql5.7.5,但是mysql在这个版本上面加了一个权限,这个权限是保护数据输出输入安全的,一般是需要在my.ini里面增加secure_priv_file来改变输入输出权限,之前设置过一次,成功了,但是后来不知道为什么在自己的笔记本上无论怎么设置都改变不了权限。后来果断换了 mysql5.5。之前在使用mysql5.7.5时,将数据库设置为了无密码,但是后来我换成了5.5之后密...

2018-04-03 16:19:39 359

转载 CBOW

本文简述了以下内容:      神经概率语言模型NPLM,训练语言模型并同时得到词表示      word2vec:CBOW / Skip-gram,直接以得到词表示为目标的模型          (一)原始CBOW(Continuous Bag-of-Words)模型          (二)原始Skip-gram模型          (三)word analogy神经

2017-07-12 10:13:17 14370

转载 CBOW and Skip-gram model

转自:https://iksinc.wordpress.com/tag/continuous-bag-of-words-cbow/清晰易懂。Vector space model is well known in information retrieval where each document is represented as a vector. The vector compo

2017-07-11 19:17:35 724

原创 名词过滤(正则表达式)

分词以及词性标注以后不知道词语拿来有什么用。因此就想了半天如何提取里面的名词。之前已经写过一篇《Java学习笔记之Pattern类的用法详解(正则表达式)》从里面已经学到了很多的正则表达式,因此也对我后期的研究有了一些启发。另外,由于我想知道怎样让多个正则表达式一起起作用,于是我又看了一篇博客:《 Java String.Split(String regex)方法之设置

2017-06-22 12:06:01 1107

转载 Java学习笔记之Pattern类的用法详解(正则表达式)

转自:http://www.cnblogs.com/Lowp/archive/2012/09/22/2698574.htmljava.util.regex.Pattern (摘自sun主页)Implements: Serializable  正则表达式的编译表示形式。指定为字符串的正则表达式必须首先被编译为此类的实例。然后,可

2017-06-21 21:10:41 644

原创 基于用户画像对于论文的考虑

其实用户画像是一个很好的东西,但是就是数据不好弄,之前老师给我的选题就是基于海尔数据的用户画像。但是更不靠谱的是老师根本没有办法给我数据,那么这个选题就是他妈纯扯淡,让我上哪里搞用户的多维度数据?但是如果技术到位的话,就可以尝试把PC上的软件列表,软件使用记录、浏览器访问记录都抓取下来,然后做一个关键词的分词工作。或许会分析出很多类似的纪录片段。用NoSQL的Key-Value形式记录,如下所示:

2017-06-12 10:16:07 1659 2

原创 从mysql中导出一列数据到txt

因为需要用到从师哥哪里获取到的mysql的评论数据,由于评论数据涉及到好多种属性,而我只需要获取其中的评论内容属性,对评论内容进行自然语言处理,所以就考虑到了将mysql中的数据导入到txt文件当中进行一系列的操作。首先:启动数据库:net start mysql第二:在DOS命令窗口输入 mysql -hlocalhost -uroot -p回车 进入mysql数据库,其中-h表示服

2017-06-11 15:47:23 14772

原创 在dos下登录退出mysq

Windows下使用DOS命令进入MySQL数据库桌面左下角windows图标--搜索框内输入cmd,结果如图所示,点击cmd.exe,或者使用快捷键Windows键(在键盘上有个Windows标志的按键)+R输入cmd后回车。(图略)启动mysql数据库:在出来的DOS命令窗口中输入 net start mysql,或者使用快捷键Windows键(在键盘上有个Windows标志的

2017-06-11 12:47:32 3115

原创 当已经安装了anaconda2可不可以让anaconda3与2共存

Anaconda 本质上是一个软件发行版,包含了 conda、Python 等 180 多个科学包及其依赖项。 因为包含了大量的科学包,Anaconda 的下载文件比较大(约 500 MB),如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda这个较小的发行版(仅包含conda和 Python)。Python目前有2和3两个版本,因此Anaconda也在Pytho

2017-06-08 09:32:08 30043 4

原创 关于HANLP的乱码问题

在利用HanLP进行分词的时候,我将一篇新闻txt读入之后分词出现了这种情况:一大篇文字就转化成了乱码,刚开始我不明白是什么问题,后来上网搜也搜不到,后来突然想到可能是txt文档的编码有问题。于是我打开我的输入文件然后另存为一遍,发现它默认的是ANSI格式的文档,怪不得读出来会是乱码。后来我将文档另存为,并更改为utf-8的编码格式,再进行一遍分词操作,之前的问题就解决了。

2017-06-06 19:42:33 1272

原创 我的python成长之路

就拿在anaconda下安装gensim包来举个例子:anaconda下载页面:https://www.continuum.io/downloads        Python的有些模块在单独安装时可能非常麻烦,Anaconda中则已经集成好了许多常见的模块,用起来非常方便。安装Anaconda之前不需要预先安装python,它其中已经自带Python、IPython、集成开发

2017-06-06 18:48:07 440

原创 我的python成长之路(1)

感谢我的启蒙课程小蚊子系列的python数据分析实战,对于我来说我是一个有编程基础的人,所以这门课学起来要比较简单,虽然它的课程有点坑,但是对我来说还是有一定的营养在里面。也正是因为这个课程我了解到了一个非常好用的python软件 anaconda,安装anaconda就顺带着直接安装了python了。在视频当中,他建议安装anaconda3,但是我个人看来,如果做自然语言处理设计到中文处理的话还

2017-06-06 16:07:51 406

原创 关于IDEA idea .java文件 右下角有个红色j,解决方法

也不知道为什么会出现这种情况:.class文件全都变成左下角一个红色的j文件,不可以编译。在运行Java程序时有了这个报错:Cannot start compilation: the output path is not specified for module “Test”. Specify the output path in Configure Project.其

2017-06-06 10:20:50 24809

转载 文本挖掘之特征选择(python实现)

机器学习算法的空间、时间复杂度依赖于输入数据的规模,维度规约(Dimensionality reduction)则是一种被用于降低输入数据维数的方法。维度规约可以分为两类:特征选择(feature selection),从原始的d维空间中,选择为我们提供信息最多的k个维(这k个维属于原始空间的子集)特征提取(feature extraction),将原始的d维空间映射到k维空间中(新的k维

2017-06-03 15:16:14 6562 6

转载 java输入输出到文件

一、java读取txt文件内容。可以作如下理解:首先获得一个文件句柄。File file = new File(); file即为文件句柄。两人之间连通电话网络了。接下来可以开始打电话了。通过这条线路读取甲方的信息:new FileInputStream(file) 目前这个信息已经读进来内存当中了。接下来需要解读成乙方可以理解的东西既然你使用了FileInputStr

2017-06-02 17:48:23 2334

原创 泣血关于mysql安装卸载安装卸载

如果MySQL没有卸载干净,想重装就不行了,本人按照网上的教程来过一遍,但是总是会有残留,于是自己琢磨了一下:1.先停止mysql服务,cmd模式下输入net stop mysql;2.进入控制面板卸载mysql;3.删除mysql文件夹下的my.ini文件及所有文件;4.运行“regedit”文件,打开注册表删除HKEY_LOCAL_M

2017-05-05 14:25:16 630 1

原创 IDEA创建工程

一、创建普通工程打开 IntelliJ IDEA,在向导中选择“Create New Project”在“New Project”选项卡中,为 Project 命名,这次我们将工程命名为 HelloWorld点“next”进行下一步,然后直接点“finish”完成创建。在右侧的项目管理器中展开我们的“HelloWorld”,在“src”上右键,新建一

2017-04-26 17:34:44 3209

转载 MATLAB数据矩阵单位化,归一化,标准化

原博客http://blog.csdn.net/yb536/article/details/41050181点击打开链接1.数据矩阵单位化方法一:[plain] view plain copy%%矩阵的列向量单位化  %输出矩阵Y为单位化矩阵  %方法即是矩阵中所有元素除以该元素所在列向量的二范数  clc;  cle

2017-04-24 11:11:47 16082 1

原创 文本相似度十大方法简要说明

1、余弦相似性余弦(余弦函数),三角函数的一种。在Rt△ABC(直角三角形)中,∠C=90°,角A的余弦是它的邻边比三角形的斜边,即cosA=b/c,也可写为cosA=AC/AB。余弦函数:f(x)=cosx(x∈R)这是一个非常常见的算法,相信大家都应该学过余弦定理了,简单来说这个算法就是通过计算两个向量的夹角余弦值来评估他们的相似度。假设向量a、b的坐标分别为(x1,y1)

2017-04-21 17:13:39 1943 1

原创 关于我使用的分词工具的总结

目前来说我尝试的两大最好用的分词工具:一个是哈工大的ICTCLAS另外一个就是HANLP这两个工具对于我来说都是非常好的。在前期主要使用的是ICTCLAS,这个分词工具现在来说是非常的成熟的。可以进行分词以及词性标注。网上现在已经提供很多基于ICTCLAS的成品软件可以拿来使用,也可以找到ICTCLAS的工具包导入到工程里面自定义函数实现自己相应的功能。后来发现了HANLP发现HANLP更加的智能

2017-04-21 16:43:03 475

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除