python【】词性标注横排

原创 2018年04月17日 14:27:01
>>> import re
>>> import jieba.posseg as pseg
>>> f = open('E:/序言.txt','r').read()
>>> words = pseg.cut(f)
>>> l = []
>>> m = []

>>> for w in words:
...   x = w.word
...   y = w.flag
...   l.append((x))
...   m.append((y))
...
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\oil\AppData\Local\Temp\jieba.cache
Loading model cost 0.893 seconds.
Prefix dict has been built succesfully.
>>> print(l)
['美国版', '序言', '\n', '\n', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '-', '\n', '\n', '\u3000', '\u3000', ' 目前', '已经', '有', '不少', '部', '哲学史', '了', ',', '我', '的', '目的', '并', '不是', '要', '仅仅', '在', '它们', '之中', '再', '加上', '一部', '。', '我', '的', '目的', '是', '要', '揭示', ',', '哲学', '乃是', '社会', '生活', '与', '政治', '生活', '的', '一个', '组成部分', ':', '它', '并', '不是', '卓越', '的', '个人', '所', '做出', '的', '孤立', '的', '思考', ',', '而是', '曾经', '有', '各种', '体系', '盛行', '过', '的', '各种', '社会', '性格', '的', '产物', '与', '成因', '。', '这', '一', '目的', '就', '要求', '我们', '对于', '一般', '历史',

----------------------------------------------

>>> for line in lines:
...   words = pseg.cut(line)
...   print(words)
...
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>
<generator object cut at 0x0000019655658048>
<generator object cut at 0x00000196556580A0>

>>>

--------------------------------------------

>>> import jieba.posseg as pseg
>>> import re
>>> l = []
>>> m = []
>>> f = open("E:/序言.txt",'r').read()
>>> c = "。"
>>> lines = f.split(c)
>>> s = open("E:/序言++.txt",'a+')
>>> for line in lines:
...   words = pseg.cut(line)
...   for w in words:
...     x = w.word
...     y = w.flag
...     print(x,y,file = s)
...
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\oil\AppData\Local\Temp\jieba.cache
Loading model cost 1.096 seconds.
Prefix dict has been built succesfully.
>>> s.close()
>>>

难道要把txt分割嘛?,越来月麻烦了 = =,暂时没有解决 , 也九先放一下了 ,这样的词性标注就对我来说一点用都没有了= =暂时

【Python】第二周Python基础(下)

本周课程主要讲解Python的面向对象编程, 异常处理、模块、MySQL数据库、Python的数据库支持以及图形用户界面等技术,最后我们使用阶段案例开发了一个《飞机大战》的游戏。
  • 2018年03月16日 11:34

python3进行中文分词和词性标注

配置python环境(win10) 下载python3,网址:https://www.python.org/ 双击安装,我安装在了D:\python 中。 添加环境变量。 在我的电脑处右键 -&...
  • qq_35414878
  • qq_35414878
  • 2018-04-09 22:01:23
  • 20

python实现的基于hmm模型的词性标注系统

python实现的基于hmm模型的词性标注系统任务定义实现一个词性标注系统,输入分好词的单词序列,输出一个词性标注后的结果序使用的语料库为人民日报98年公开语料库,一共约18000行语料。在用户交互模...
  • say_c_box
  • say_c_box
  • 2017-11-16 14:16:58
  • 1022

Python 文本挖掘:jieba中文分词和词性标注

最近NLP新词发现及情感倾向性分类
  • u010454729
  • u010454729
  • 2014-10-26 13:26:08
  • 17120

Python NLTK学习5(词性标注)

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 词性标注器 一个词性标注器处理一个词序列,为每个词附加一个词性标记,我们先看一个示例: import nltk wor...
  • AMDS123
  • AMDS123
  • 2017-03-28 20:33:34
  • 7616

nltk英文词性标注

需要用nltk.download()下载punkt和averaged_preceptron_taggerimport nltk words = nltk.word_tokenize('And now ...
  • appleyuchi
  • appleyuchi
  • 2018-02-09 11:31:14
  • 70

python进行中文分词、词性标注、词频统计

df的部分数据如下: A B 0 乐视招聘自动化测试工程师负责超级...
  • yyxyyx10
  • yyxyyx10
  • 2017-03-24 11:51:27
  • 2546

python词法分析(分词+词性标注)

 # -*- coding: cp936 -*-###librarys:import sys###global variables:freqdic={}dic={}transferdic={}inpu...
  • soundfuture
  • soundfuture
  • 2009-04-29 09:16:00
  • 5275

python的jieba分词词性标注

jieba分词的词性标注       在明哥的严厉催促下,我终于注册了我自己的博客,并且这是我写的第一篇博客,写得不好还请大家多多指出,以帮助小弟在编程之路上走得更远。       好了,废话就不多...
  • li_31415
  • li_31415
  • 2015-09-22 19:55:08
  • 19215

python jieba分词(标注词性)

本人初学python代码不够规范 望见谅本段代码可以完成对文本信息的分词(标注词性)、去停用词、以及存储到本地TXT文件中# coding:utf-8 import re import json im...
  • qq_21149391
  • qq_21149391
  • 2018-03-08 15:05:31
  • 95
收藏助手
不良信息举报
您举报文章:python【】词性标注横排
举报原因:
原因补充:

(最多只允许输入30个字)