python
文章平均质量分 73
python
木子一个Lee
你好
展开
-
安装完Anaconda Navigator,“Mark for specfic version installation”显示灰色(不能更改包的版本)的解决方法
仔细思考一下这个问题,其实是软件没有自动初始化,执行了这个命令是查看可以更改的python版本,相当于手动初始化。原创 2023-08-02 13:52:34 · 350 阅读 · 1 评论 -
anaconda点开后 一直停留在 loading applications的解决方法
2.在cmd窗口输入命令语句:tasklist | findstr “pythonw” (找到pythonw的PID,如:PID为7212,注意多个pythonw.exe都需要终止)2.打开conda_api.py文件,找到程序data = yaml.load(f)改为 data = yaml.safeload(f)打开任务管理器,没有Anaconda的进程,无法结束进程,此时我们可以选择用CMD命令去结束进程。重新打开Anaconda navigator的时候,出现下图所示,anaconda已经在运行。转载 2023-08-02 00:05:43 · 3523 阅读 · 1 评论 -
中文信息处理实验8——基于逻辑斯蒂回归模型的文本分类
实验数据采用htl_del_4000宾馆情感分析数据进行处理,所有数据已按照情感极性划分为褒(pos)贬(neg)两类,各2000篇,每个文本文件为一篇文章,实验数据需要先进行分词,分词方法不限。对数据集进行划分,对同一批数据进行不同的文本表示方法,输出分类准确率、召回率和F1值,比较两类表示方法的效果差异。4.任意输入一句话,能够对其进行基于Word2Vec的向量表示,并进行分类输出其类别标签。任意输入一句话,能够对其进行基于Word2Vec的向量表示,并进行分类输出其类别标签。原创 2023-01-01 11:35:20 · 1171 阅读 · 2 评论 -
中文信息处理实验7——基于Word2Vec的文本表示
7)对给定语料库内的所有的句子,将其分词后从(5)中已经训练完成的模型中获取其所有词汇的词向量表示。利用实验五的方法,计算句子S中每个词汇wi的tfidf值并进行归一化(归一化可使用公式Eq.1) ,以该归一化tfidf值作为wi的权重对句子的所有词向量。实验数据采用htl_del_4000宾馆情感分析数据进行处理,所有数据已按照情感极性划分为褒(pos)贬(neg)两类,各2000篇,每个文本文件为一篇文章,实验数据需要先进行分词,分词方法不限。表示进行加权求和,作为该句子的向量表示(公式Eq.2)。原创 2023-01-01 11:23:10 · 1430 阅读 · 0 评论 -
中文信息处理实验6——文本表示
利用实验五中构建的特征集,对任意输入的文本序列,能将其转变为以TFIDF为权重的向量表示,并从实验6.2的文本文章中依照余弦相似度给出相似度最高的三篇文章并输出其相似度的值。对于一个带标签的文章sen,遍历特征词表,若sen含有第i个特征词,则计算该词的TFIDF值作为向量对应维度的权重值,否则特征权重为0。依据实验五得到文本的表示特征,从文件中读取特征词集,构建向量空间模型,计算每个文章表示向量表示中每一个特征维度的权重。“cn stopwords.txt”,可用于数据预处理中的去除停用词。原创 2023-01-01 11:13:17 · 1235 阅读 · 0 评论 -
中文信息处理实验5——文本特征抽取
其中P(c)表示ci类文档在语料中出现的概率,Pt表示语料中包含特征词条t的文档的概率,P(c, l 八)表示文档包含特征词条t时属于ci类的条件概率,P()表示语料中不包含特征词条t的文档的概率,P(c, l)表示文档不包含特征词条t时属于ci类的条件概率,m表示文档类别数。2)对候选特征词集S中的所有词汇w,计算其特征得分s(w),计算方法分别使用文档频率、互信息、信息增益三种方法实现。3)依据候选特征词集S中词汇w的特征得分s(w)进行排序,选择得分最大的前N=1000个词作为文本的表示特征集。原创 2023-01-01 11:05:55 · 1646 阅读 · 9 评论 -
中文信息处理3+4——基于HMM与字标注的分词程序特征抽取及文本表示方法
加深对汉语文本信息处理基础理论及方法的认识和了解,锻炼和提高分析问题、解决问题的能力。通过对具体项目的任务分析、数据准备、算法设计和编码实现以及测试评价几个环节的练习,基本掌握实现一个自然语言处理系统的基本过程。4个构词位置标记为:B:词首,M:词中,E:词尾,S:单独成词。2.将语料分成测试集与训练集(一般为4:1的比例)。在训练集上统计估算初始概率、发射概率、转移概率所需的参数。3.利用Viterbi算法, 实现基于HMM的字标注的分词程序。2.训练集、测试集、参数。原创 2023-01-01 10:53:47 · 1428 阅读 · 0 评论 -
中文信息处理实验2——基于词表的分词
加深对汉语文本信息处理基础理论及方法的认识和了解,锻炼和提高分析问题、解决问题的能力。通过对具体项目的任务分析、数据准备、算法设计和编码实现以及测试评价几个环节的练习,基本掌握实现一个自然语言处理系统的基本过程。3.使用结巴、ICTCLAS分词系统、哈工大的LTP平台等分词功能,对人民日报语分词,然后对比自己的分词结果。2.编写一个评价程序,自动计算分词结果的准确率、召回率、F测度。1.基于第一次实验得到的词表,编写一个正向最大匹配分词程序。1.正向最大匹配分词程序。原创 2023-01-01 10:39:24 · 1437 阅读 · 0 评论 -
中文信息处理实验1——针对人民日报语料编写程序
加深对汉语文本信息处理基础理论及方法的认识和了解,锻炼和提高分析问题、解决问题的能力。通过对具体项目的任务分析、数据准备、算法设计和编码实现以及测试评价几个环节的练习,基本掌握实现一个自然语言处理系统的基本过程。4.去除语料中的分词和词性标记,形成未加工的语料(原始文本)3.统计每个词出现的次数,并按照词频从小到大排序。2.统计总词数、不同词的个数并输出。2.总词数,不同词的个数。原创 2023-01-01 10:35:03 · 1386 阅读 · 0 评论 -
python实验七 网络爬虫和文本处理
词干提取的结果可能并不是完整的、具有意义的词, 而只是词的一部分,如“revival”词干提取的结果为“reviv”,“ailiner”词干提取的结果为“airlin”。词形还原与词干提取相关,不同的是,词形还原更为复杂,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但原形不同的词的差别,能够捕捉基于词根的规范单词形式。不同的中文词法分析软件结果差别不大,在不同数据集上的表现互有高低。由于字的粒度太小,无法表达完整含义,而句子的粒度太大、承载的信息量多,很难复用,因此,词是一个比较合适的粒度。原创 2022-12-31 12:10:35 · 2772 阅读 · 4 评论 -
python实验六 语音信号处理
然后,读取音频文件,如果音频不足 5s,重复该音频满足时长大于 5 秒,然后随机选取其中的 5s 片段,重复 3 次,再对首尾添加 3s 的淡入淡出,得到新的音频文件***_new.wav。Pydub 提供了简洁的高层接口,极大的扩展了python 处理音频文件的能力, pydub 可能不是最强大的 Python 音频处理库,但绝对是 Python 最简洁易用的音频库,其功能足以满足大多数情况下的音频处理需求,但是 Pydub 库高度依赖ffmpeg,需要在使用前安装 ffmpeg。此外还可以减少运算量。原创 2022-12-31 11:38:22 · 3090 阅读 · 0 评论 -
pyhton实验五 类与对象
【代码】pyhton实验五 类与对象。原创 2022-12-31 10:59:39 · 621 阅读 · 0 评论 -
python实验四 文件与数据格式化
这里的输入和输出是相对于内存来说的,Input Stream(输入流)是指数据从外(磁盘、网络)流进内存,Output Stream 是数据从内存流出到外面(磁盘、网络)。程序运行时,数据都是在内存中驻留,由 CPU 这个超快的计算核心来执行,涉及到数据交换的地方(通常是磁盘、网络操作)就需要 IO 接口。I/O 在计算机中是指 Input/Output,也就是 Stream(流)的输入和输出。1)打开文件,获取文件描述符。2)操作文件描述符--读/写。原创 2022-12-31 10:59:56 · 561 阅读 · 0 评论 -
python实验三 函数的应用
【代码】python实验三 函数的应用。原创 2022-12-31 10:31:49 · 1429 阅读 · 0 评论 -
python实验二 组合数据类型
其次,新建一个列表list2=[4,3,5,6],使用 extend()函数将列表 list2 中的内容添加到 list1 中;最后,使用 sort()函数将 list1 排序,并遍历 list1, 分别打印输出列表。然后,分别使用%、.format()和 f-string 三种方式打印欢迎用户的语句,其中,用户名需要使用strip()函数去掉首尾可能存在的空格, 使用 title()函数转换为首字母大写的方式;首先,新建集合 set1={1,2, 4},使用 remove 删除元素 2,随后打印输出;原创 2022-12-31 09:53:42 · 767 阅读 · 0 评论 -
python实验一 python基础
在条件语句中,使用 print()函数输出其中较大的数字的十进制形式和较小数字的八进制形式(oct()函数),并输出两个整数乘积的十六机制形式(hex()函数);请用户输入两个正整数,其中用户输入的数字均为二进制形式的字符串,打印其中较大数字的十进制形式,和较小数字的八进制进制形式。PyCharm 开始运行,并在断点处暂停,断点所在代码行变蓝,意味着 Pycharm程序进程已经到达断点处,但尚未执行断点所标记的代码。注意断点会将对应的代码行标记为红色,取消断点的操作也很简单,在同样位置再次单击即可。原创 2022-12-31 09:48:11 · 1892 阅读 · 0 评论