2018年08月_SinGaln

12月 09月 08月 06月 05月 04月

原创 ValueError: setting an array element with a sequence.错误处理。。。

对于这个错误，看了很多的博客资料。都说数组元素没有对齐，找到相应的列补充元素就行，看了之后心累啊。。。。小编做自然语言处理，几个G的文本啊，怎么找啊！！！！！所以，经过我的一番努力，终于找到了解决办法。。。。就几行代码的事：主要是补全元素import numpy as npvec = []f = open('a.txt', encoding='utf-8')while Tr...

2018-08-31 12:43:27 36144 5

原创自然语言处理语料

搜狗新闻语料密码：7grc 百度百科数据密码：gshk SougouR语料密码：phwd freebase_mid2name 密码：cafv freebase-FB5M 密码：0imt 69万大词库密码：fmqf 汉语词库密码：witn 哈工大LTP models ...

2018-08-26 17:15:12 1781 2

原创 jieba分词，去除停用词并存入txt文本

代码如下，停用词获取点击这里。密码：cef8# -*- coding: utf-8 -*-import jiebaimport jieba.analyseimport jieba.posseg as psegimport refrom pyltp import NamedEntityRecognizer# jieba.load_userdict('userdict.txt')...

2018-08-26 17:04:29 15951 4

原创中文繁体字转简体

首先，复制以下代码并命名为langconv.py#!/usr/bin/env python# -*- coding: utf-8 -*-from copy import deepcopyimport retry: import psyco psyco.full()except: passtry: from zh_wiki import zh...

2018-08-26 16:58:25 26689