- 博客(4)
- 资源 (9)
- 收藏
- 关注
原创 ValueError: setting an array element with a sequence.错误处理。。。
对于这个错误,看了很多的博客资料。都说数组元素没有对齐,找到相应的列补充元素就行,看了之后心累啊。。。。 小编做自然语言处理,几个G的文本啊,怎么找啊!!!!! 所以,经过我的一番努力,终于找到了解决办法。。。。 就几行代码的事:主要是补全元素import numpy as npvec = []f = open('a.txt', encoding='utf-8')while Tr...
2018-08-31 12:43:27 36144 5
原创 自然语言处理语料
搜狗新闻语料 密码:7grc 百度百科数据 密码:gshk SougouR语料 密码:phwd freebase_mid2name 密码:cafv freebase-FB5M 密码:0imt 69万大词库 密码:fmqf 汉语词库 密码:witn 哈工大LTP models ...
2018-08-26 17:15:12 1781 2
原创 jieba分词,去除停用词并存入txt文本
代码如下,停用词获取点击这里。 密码:cef8# -*- coding: utf-8 -*-import jiebaimport jieba.analyseimport jieba.posseg as psegimport refrom pyltp import NamedEntityRecognizer# jieba.load_userdict('userdict.txt')...
2018-08-26 17:04:29 15951 4
原创 中文繁体字转简体
首先,复制以下代码并命名为langconv.py#!/usr/bin/env python# -*- coding: utf-8 -*-from copy import deepcopyimport retry: import psyco psyco.full()except: passtry: from zh_wiki import zh...
2018-08-26 16:58:25 26689
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人