![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分词
he_jin_jin
其实我还是不是太支持女生走计算机这条路,不过在硕士的期间还是要干好自己的事情。活在当下才能为今后的目标奠定好基础。
展开
-
关于HANLP的乱码问题
在利用HanLP进行分词的时候,我将一篇新闻txt读入之后分词出现了这种情况:一大篇文字就转化成了乱码,刚开始我不明白是什么问题,后来上网搜也搜不到,后来突然想到可能是txt文档的编码有问题。于是我打开我的输入文件然后另存为一遍,发现它默认的是ANSI格式的文档,怪不得读出来会是乱码。后来我将文档另存为,并更改为utf-8的编码格式,再进行一遍分词操作,之前的问题就解决了。原创 2017-06-06 19:42:33 · 1275 阅读 · 0 评论 -
名词过滤(正则表达式)
分词以及词性标注以后不知道词语拿来有什么用。因此就想了半天如何提取里面的名词。之前已经写过一篇《Java学习笔记之Pattern类的用法详解(正则表达式)》从里面已经学到了很多的正则表达式,因此也对我后期的研究有了一些启发。另外,由于我想知道怎样让多个正则表达式一起起作用,于是我又看了一篇博客:《 Java String.Split(String regex)方法之设置原创 2017-06-22 12:06:01 · 1111 阅读 · 0 评论