python学习
文章平均质量分 74
lalalawxt
这个作者很懒,什么都没留下…
展开
-
python 实现机械分词(1)-正向最大匹配算法
词语是自然语言处理中重要的知识载体和基本操作单元, 但是中文里词与词之间没有很明显的标记,它们都是连续的字符串,所以文本处理的第一步是怎样进行中文分词。分词是添加合适的显性的词语边界标志使得所形成的词串反映句子的本意的过程。分词主要有基于字符串匹配的方法、基于规则的方法和基于统计的方法,本文主要通过python实现基于字符串匹配的方法也称为机械分词中的两类方法:正向最大匹配算法和逆向最大匹配算法,原创 2017-07-20 09:43:13 · 12753 阅读 · 6 评论 -
python实现机械分词(2)-逆向最大匹配算法
2、逆向最大匹配方法 逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。原创 2017-07-20 10:28:12 · 5086 阅读 · 1 评论 -
python3 GUI 开发 (1)环境配置
刚接到这个练习任务的时候有点小兴奋,因为不用写html+css前端代码就可以简单的实现一个用户界面操作自己编写的程序,又有点天真,我想当然的以为一个下午就可以把之前写的程序用GUI开发好,只能说图样图森破....倒腾了半天,终于默默的把GUI的环境 python3 + PyQt5 + Eric6 安装好了。写此文以记录自己瞎倒腾的这几个小时,吃一垫长一智。 首先,安装顺序需按照pytho原创 2017-07-30 19:36:27 · 2946 阅读 · 0 评论 -
python3 GUI开发 (2)
在配置好python3+PyQt5 + eric6 的环境后,QT Designer 软件下载安装,就可以开始尝试python GUI 开发,初步熟悉阶段主要参照网上的博客《用eric6与PyQt5实现python的极速GUI编程》,此外对PyQt5的学习可以参考《PyQt5学习笔记》。 在了解和熟悉整个流程之后就开始尝试自己给之前写的最大逆向匹配分词程序编写一个易操作的可视化界面原创 2017-08-06 16:37:22 · 1903 阅读 · 0 评论 -
Python 文件读取相关操作函数
一、txt文件读取(1)import codecs codecs 模块是专门用来做编码转换的。在python文件读取过程中,编码问题是经常影响新手读取文件的问题,使用该模块可以自动做编码转换。(2)读取文件def readfile(path): with codecs.open(path,"r",encoding="utf-8") as f: lines = f.readl...原创 2018-03-08 16:48:03 · 2598 阅读 · 0 评论 -
Python TF-IDF 算法 提取文本关键词
TF(Term Frequency)词频,在文章中出现次数最多的词,然而文章中出现次数较多的词并不一定就是关键词,比如常见的对文章本身并没有多大意义的停用词。所以我们需要一个重要性调整系数来衡量一个词是不是常见词。该权重为IDF(Inverse Document Frequency)逆文档频率,它的大小与一个词的常见程度成反比。在我们得到词频(TF)和逆文档频率(IDF)以后,将两个值...原创 2018-03-09 16:46:34 · 15424 阅读 · 5 评论 -
python 解析 csv文件报错
在处理为微博文本的csv文件读取时报错,报错提示为:原始代码为:报错的意思大概时,utf-8 无法解码,在位置0处有非法字符。在utf-8编码文件中bom在文件头部,占用三个字节,用来标示该文件属于utf-8编码,现在已经有很多软件识别bom头,但是还有些不能识别bom头,所以读取的时候就会出现报错。解决方案:用Notepad++软件把需要读取的文件打开,点击上方工具栏...原创 2018-06-11 20:21:00 · 1150 阅读 · 0 评论 -
Python 基础入门知识学习总结
在学校的这几年,一直断断续续地在接触python,从一开始的分词作业到后来的话题发现,主要集中用python处理自然语言处理方面的问题。但是,后来又有一段时间集中精力专攻前端开发方面的程序问题。所以现在感觉自己整个编程体系都很混乱,每个部分都略懂一点,深感基础知识薄弱,故重新通过mooc网的视频教程温习了一遍python 基础入门知识,查漏补缺。本篇为学习Python基础入门知识课程的知...原创 2019-01-17 11:21:16 · 1358 阅读 · 0 评论