文本预处理

最新推荐文章于 2024-05-08 06:21:40 发布

wangjin_bupt

最新推荐文章于 2024-05-08 06:21:40 发布

阅读量319

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_32539187/article/details/79155955

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、分词

结巴分词：

string = '电池充完了电连手机都打不开.简直烂的要命.真是金玉其外,败絮其中!连5号电池都不如'
words = jieba.lcut(string)  # 直接返回list
for word in jieba.cut(string):
    print(word)   # 通过迭代输出结果
print(words)

带有词性的结巴分词：

string = '电池充完了电连手机都打不开.简直烂的要命.真是金玉其外,败絮其中!连5号电池都不如'
words = jieba.posseg.cut(string)  # 直接返回list
s = ''
for w in words:
    if len(w.word) > 1 and w.flag == 'n':
        s = s + w.word + ' '
print(s)

np.contenate的用法：

import numpy as np
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
c = [1, 2]
d = [2, 3]
print(a)
print(np.concatenate((c, d)))  # [1 2 2 3]
print(np.concatenate((a, b)))  # [[1 2]
                                  [3 4]
                                  [5 6]]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wangjin_bupt

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本预处理

1、分词结巴分词：string = '电池充完了电连手机都打不开.简直烂的要命.真是金玉其外,败絮其中!连5号电池都不如'words = jieba.lcut(string) # 直接返回listfor word in jieba.cut(string): print(word) # 通过迭代输出结果print(words)带有词性的结巴分词：string
复制链接

扫一扫