自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 word文档的写入(1)

我们来观察下右边的“成绩报告单模版.docx”,红色框出的就是我们需要填入信息的位置。能够发现,在这个Word文档中,我们需要写入的信息,既有在。,我们知道一个Word文档(Document)的基本组成单位是段落(Paragraph),而段落中的文本内容至少包含一个或多个样式块(run)。在Word文档中,找到一个需要插入信息的位置,并将信息插入到Word文件对应的位置中。之后,我们再学习,批量从Excel里读取信息,然后将信息批量加入Word文档中。在将信息写入Word文档前,我们需要先读取该文档。

2024-09-17 21:35:08 993

原创 word文档的读入(8)

东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]这里,我们通过了格式化的方式设置工作表对象["列号行号"],具体代码为:sheet[f"A{index}"]。现在,我们已经读取到了所有需要获取的信息,也计算出了学生的选择题和填空题的分数。在编写代码的过程中,需要同时操作Excel与Word中的表格,容易混淆。

2024-09-17 21:33:40 524

原创 word文档的读入(7)

东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]

2024-09-12 13:00:15 658

原创 word文档的读入(6)

东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]

2024-09-12 12:53:48 1192

原创 word文档的读入(5)

东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"],就可以得到对应的学生答案所在的段落索引。

2024-09-11 13:31:55 869

原创 word文档的读入(4)

使用split()函数以"-"分隔文件名,将第1部分班级信息赋值到学生数据字典的classInfo键里。使用os.path.splitext()函数获取文件名的前半段,并赋值给变量fileName。使用split()函数以"-"分隔文件名,将第2部分姓名信息赋值到学生数据字典的name键里。本例中,展示了读取学号的具体代码,也就是读取第四段的第二个样式块的文本内容。刚刚我们获取到的是段落和样式块对象,要想读取到真正的文本内容,需要通过。选择题的答案读取因为涉及到表格的读取,将在第四天的课程中学习。

2024-09-11 13:30:09 930

原创 Word文档的读入(3)

使用split()函数以"-"分隔文件名,将第1部分班级信息赋值到学生数据字典的classInfo键里。使用split()函数以"-"分隔文件名,将第1部分班级信息赋值到学生数据字典的classInfo键里。使用os.path.splitext()函数获取文件名的前半段,并赋值给变量fileName。使用split()函数以"-"分隔文件名,将第2部分姓名信息赋值到学生数据字典的name键里。使用split()函数以"-"分隔文件名,将第2部分姓名信息赋值到学生数据字典的name键里。

2024-09-10 15:08:34 488

原创 Word文档的读入【2】

填空题的第一题位于答题卡中的第9段,只需逐行读取到答题卡中的最后一个段落,然后和标准答案进行对比,便可以算出填空题的分数。表格中的第二行是学生填写的内容,只需依次读取这一行中的信息,然后和标准答案进行对比,便可以算出选择题分数。使用os.path.splitext()函数获取文件名的前半段,并赋值给变量fileName。使用split()函数以"-"分隔文件名,将第2部分姓名信息赋值到学生数据字典的name键里。使用split()函数以"-"分隔文件名,将第2部分姓名信息赋值到学生数据字典的name键里。

2024-09-10 15:05:02 1116

原创 Word文档的读取(1)

使用os.listdir()函数获取该路径下所有的答题卡名称列表,并赋值给变量allItems。现在,就可以在for循环里,根据答题卡的文件名来依次获取学生的班级和姓名信息,并将它们存储到。使用split()函数以"-"分隔文件名,将第2部分姓名信息赋值到学生数据字典的name键里。我们需要先获取文件名的前半段"x年级x班-xxx",再分别获取其中的班级信息"单元格中的内容可以包含段落和表格,相当于独自构成了一个完整的Word文档。乔老师使用的是macOS系统的电脑,他将学生的答题卡保存到了路径为。

2024-09-09 22:18:19 914

原创 Excel文档的读入(4)

在这一行中,获取当前行中第 3 列(索引为 2, 因为索引从 0 开始)的值,代表商品名称,并赋值给 `productName` 变量。课程的最后,再来复习一下知识点吧。如果条件成立,则将当前订单的总价 `price` 加入到 `colaSold` 中,以累计“火龙果可乐”的销售额。这行代码从工作簿中获取名为“销售订单数据”的工作表,并将其赋值给变量 `orderSheet`,以便后续使用。最后逐个添加到一个列表。最后,使用 `print` 函数输出本月“火龙果可乐”的销售总额,格式化为指定的字符串。

2024-09-09 07:23:36 859

原创 Excel文档的读取(3)

如果是,就逐一把销售金额添加到colaSold变量里。接下来,我们需要在行遍历中逐行去判断哪些订单商品是“火龙果可乐”,并把对应的订单总价添加到当月售卖总金额里。,来获取列号对应的数字,比如传入参数“E”就会获取到数字5,表示“E”列是第5列。通过工作簿对象wb获取名为“销售订单数据”的工作表对象,并赋值给变量orderSheet。通过工作簿对象wb获取名为“销售订单数据”的工作表对象,并赋值给变量orderSheet。下一步,我们需要在工作表里,逐行去判断哪些订单商品是“火龙果可乐”,并把对应的。

2024-09-08 10:24:55 1126

原创 Excel文档的读取【2】

为了找到计算单个月份“火龙果可乐”销售额的方法,我们在之前的课程中学习了如何读取工作表,接下来我们要学习逐行读取和操作工作表中的数据。在工作簿名称后添加data_only=True,并使用print输出orderSheet里I10单元格公式计算后的值。要访问单元格里的值,我们可以在单元格对象后加一个。通过工作簿对象wb获取名为“销售订单数据”的工作表对象,并赋值给变量orderSheet。使用print输出工作簿中所有的工作表名称。每个工作簿中,都包含一个或多个工作表。读取了工作簿对象后,下一步就是。

2024-09-08 10:23:04 367

原创 Excel文档的读取(1)

剩下的三步将在明天和后天的课程中进行学习,并最终解决阿珍的问题。这样的工具进行多表合一,也会有同一个工作表太大导致电脑太卡和所有Excel文件格式必须一样这样的问题。但当有非常大量的Excel文件需要处理时,每一个Excel文件单独去做数据透视也会消耗大量的时间。当这行订单的C列的商品名是“火龙果可乐”的时候,我们需要把符合要求的订单I列的总价逐个加起来。熟悉使用Excel的同学应该都知道,在单个Excel表格里想要分商品计算总销售额,使用。在工作薄页面的左下方可以进行工作表的切换和增删。

2024-09-07 12:57:25 1282

原创 照片信息的读取与分类(1)

利用格式化字符串拼出文件夹名称,并赋值给变量targetFolderName,再使用os.path.join()函数拼出分类文件夹的路径, 并赋值给photoTargetPath变量。将示例中拍摄日期分隔成日期和时间,把分隔后的列表赋值给变量takeTimeParts,然后使用两个print分别输出日期和时间。使用os.path.exists()函数判断照片分类的文件夹是否存在,如果不存在,就使用os.mkdir()函数创建文件夹。再把拍摄日期通过冒号分隔,分成年、月、日三部分,赋值给变量。

2024-09-07 12:55:18 855

原创 照片信息的读取与分类(1)

将照片备份文件夹的相对路径赋值给变量backupPhotoPath,使用os.listdir()函数获取该文件夹下所有的文件列表并赋值给变量photoList,然后遍历该文件列表,并在遍历代码中输出文件名。为了方便后续代码的操作,我们先来查看一下现在这个Python程序运行的工作目录在哪里,然后将工作目录切换到移动硬盘的路径下。导入ezexif模块,然后在遍历文件列表的代码中获取照片的拍摄时间,并使用print输出。,指直接以文件或文件夹的名称开头,相对于工作目录的路径位置。

2024-09-06 11:32:47 843

原创 python文件自动分类(5)

使用os.path.join()函数拼接分类文件夹路径:Excel文件。使用os.path.join()函数拼接分类文件夹路径:Word文件。使用os.path.join()函数拼接分类文件夹路径:PDF文件。使用os.path.join()函数拼接分类文件夹路径:PPT文件。使用os.path.join()函数拼接分类文件夹路径:图片文件。使用os.path.join()函数拼接分类文件夹路径:视频文件。使用os.path.join()函数拼接分类文件夹路径:其他文件。使用for循环遍历所有文件(夹)

2024-09-06 11:22:39 866

原创 python文件自动化(4)

所以我们只需在程序判断 itemPath 不是一个文件夹的时候,使用 shutil.move() 函数将itemPath路径的文件移动到targetPath路径的文件夹下。判断当itemPath不是文件夹时,使用shutil.move()函数移动itemPath路径的文件到targetPath路径的文件夹。函数可以用来移动文件或文件夹。它接收两个参数,第一个参数是要移动的文件(夹)路径,第二个参数是目标文件(夹)的路径。它接收两个参数,第一个参数是要移动的文件(夹)路径,第二个参数是目标文件(夹)的路径。

2024-09-05 12:39:46 1210

原创 python文件自动分类(3)

因此,要解决阿文的问题,我们在得到了目标文件夹的路径后,就可以使用 os.path.exists() 函数来判断目标文件夹是否已经存在。使用os.path.exists()函数判断目标文件夹是否存在,如果不存在,使用print输出目标路径。使用os.listdir()函数获取该路径下所有的文件(夹),并赋值给变量allItems。使用os.listdir()函数获取该路径下所有的文件(夹),并赋值给变量allItems。前面已经讲了利用 os.path.exists() 函数判断文件夹是否存在。

2024-09-05 07:38:48 621

原创 Python文件自动分类(2)

根据常见后缀名列表,使用后缀名判断文件是什么类型,并使用print输出文件名和文件类型名称,不在列表中的类型输出为“其他文件”。返回的元组数据中,元组的第一个元素是文件名最后一个点号前面的部分,第二个元素是文件名最后一个点号和其后面的部分,即文件后缀名。返回的元组数据中,元组的第一个元素是文件名最后一个点号前面的部分,第二个元素是文件名最后一个点号和其后面的部分,即文件后缀名。在某些情况下,要判断的条件会较多,比如音频文件,需要判断的后缀名就有.wav .mp3 .mid .ape .flac这5种。

2024-09-04 13:41:37 965

原创 如何用python计算销量(openpyxl模块的实际应用)

在这一行中,获取当前行中第 3 列(索引为 2, 因为索引从 0 开始)的值,代表商品名称,并赋值给 `productName` 变量。如果条件成立,则将当前订单的总价 `price` 加入到 `colaSold` 中,以累计“火龙果可乐”的销售额。这行代码从工作簿中获取名为“销售订单数据”的工作表,并将其赋值给变量 `orderSheet`,以便后续使用。这行代码初始化一个变量 `colaSold`,用于累计本月“火龙果可乐”的销售额,初始值为 0。

2024-09-04 13:38:15 723

原创 Python文件自动分类

假如这样的步骤全部手动做下来耗时是6秒,在文件数量不多的情况下,比如10个文件,总共耗时一分钟其实是能够接受的。阿文将文件保存到路径 /Users/yequ/Downloads,我们需要获取该文件夹下所有的文件列表。当我们需要访问文件或文件夹时,路径就像现实中的地址一样,帮助我们找到目标文件或文件夹在什么位置。不管是何系统,除了文件路径有所差异,其它的知识点和操作步骤都是通用的。需要注意的是,macOS系统中,没有盘符的概念,所有的路径都是从。的字母和一个英文冒号,表示文件或文件夹具体是在哪个盘的路径下。

2024-09-03 23:24:23 637

原创 【class19】人工智能初步---语音识别(5)

不同之处在于:detect_nonsilent()通过传入静音段的参数min_silence_len, silence_thresh去除静音段,来定位语音段的位置,从而获取语音段时间信息,返回值为列表。第16行,使用detect_nonsilent()获取语音段时间信息。使用str()函数将mspart转化为字符串,再通过zfill()函数返回长度为3的字符串,位数不够前面补0。使用str()函数将spart转化为字符串,再通过zifill()函数返回长度为2的字符串,位数不够前面补0。

2024-05-29 16:22:27 803

原创 【class18】人工智能初步----语音识别(4)

批量调用接口识别音频:在for循环结果的循环体内,调用语音识别函数audio2text(),获取语音识别结果,并输出识别结果,实现批量调用接口识别音频。语音识别的输入和输出都是不定长序列,换句话说,就是每次输入的语音和输出的文字长度不定。比如,时长不一样的语音,采样后所得的数字序列是不一样长的。本节课,我们学习了语音识别模型的结构和原理,同时调用创建好的AipSpeech客户端实现了语音转文字功能。注意:该接口只能将60秒以下的音频识别为文字,若音频时长超过限制,可切分为多段音频进行识别。

2024-05-28 18:47:00 2161

原创 【class17】人工智能初步-----语音识别(3)

第17行,使用split_on_silence()切分音频,并传入参数sound,min_silence_len,silence_thresh。完成模块的导入后,我们利用语音端点检测的原理: 对split_on_silence类,设置适当的参数。音频这个东西,看波形就可以看出来有没有声音,哪部分是语音段,哪部分是静音段一目了然。文件保存至路径变量path,路径为/Users/yequ/下的音频文件,文件名从音乐片段0.wav-音乐片段11.wav音乐。

2024-05-27 11:35:07 1362

原创 【class15】人工智能初步----语音识别(2)

使用AudioSegment类中的from_wav()函数读取音频文件"大话西游.wav"。是最常见的声音文件格式之一,一种标准的数字音频文件,该文件能记录各种单声道或立体声的声音信息,并能保证声音不失真。使用VideoFileClip类中的.audio属性获取加载后视频文件的音频。使用.audio属性可以获取视频中的音频对象。使用AudioSegment类中的from_wav()函数读取音频文件"大话西游.wav"第7行,使用VideoFileClip类中的audio方法获取加载后视频文件的音频;

2024-05-26 10:34:57 734

原创 【class14】人工智能初步之语音识别

在这个过程中,耳朵就相当于声音的接收端,大脑相当于GPU,对声音进行处理,最终得出一个判定的结果。我们知道电脑只能对数字进行处理分析,语音识别模型的输入和输出没有我们想象的那么简单:输入和输出不一定是简单的语音和文字。比如,音位字典告诉电脑,cat由K、AE、T三个音位组成,遇到这三个音位组合时,就输出cat这个单词。与图像识别类似,人类对自己熟悉的语言,理解起来很简单,遇到不熟悉的语言,理解起来就比较困难了。在深度学习没有流行之前,以音位为输出是很常见的,因为音位和声音的对应关系比较强,机器更好理解。

2024-05-25 09:15:00 983

原创 【class14】创建自己的OCR系统

想要从字典result中取出参数'words_result'的值,得到文字信息,可以用result['words_result']。列表中的每一个元素又是一个字典,我们想要获得'words'参数中的文字信息就需要指定键'words'。示例中添加了参数detect_direction,将其设置为"true",就能检测图像的朝向。这几行高亮的代码,利用「通用文字识别(高精度版)」接口,对一张输入图片,识别出所有文字。最后,为了保存记录,我们试着将刚刚获得的所有文字信息写入最简单的文本文件,方便查看。

2024-05-24 08:30:00 972

原创 【class13】人工智能初步(OCR技术初步)

比如,习惯了复制粘贴后,遇上想借鉴的纸质文件、需付费才能复制的文档、无法选取的PDF文件或图片,只能一个字一个字重新敲?背景复杂, 字体多样, 颜色多变, 方向任意, 大小不同, 语言不统一, 板式不固定这些问题。每一层的每个阀门都与下一层的所有阀门相连,组成一个从前到后,逐层完全连通的水流系统。在电商行业中,智能识别广告图中的文字内容,过滤广告中的不良信息,为企业降低业务风险。实际上,对我们来说,OCR一点儿也不陌生。再看一看,是不是标记了"中"字的出口水流最多,如果不是,再调节所有的阀门。

2024-05-23 08:45:00 1252

原创 【class13】人工智能初步(人脸识别(4))

检测到的面孔【位置信息】与配置options参数时添加的【检测质量】、【年龄预测】信息,也会依次记录在ret_data['result']['face_list']这些字典中。当识别到多张人脸时,ret_data['result']['face_list'] 列表里会存储多个字典,且每个字典都对应了一个人脸的基本信息。其中,对五官的遮挡检测存储在face_msg['quality']['occlusion'],ret_data['result']['face_list'] 中用列表存储每张人脸的信息;

2024-05-22 08:45:00 959 1

原创 【class12】人工智能初步(人脸识别(3))

配置options参数不仅让我们成功检测到图中的所有面孔,并依次将每个面孔的【位置信息】、【检测质量】与【年龄预测】等信息,记录在ret_data['result']['face_list']这些字典中。检测到的面孔【位置信息】与配置options参数时添加的【检测质量】、【年龄预测】信息,也会依次记录在ret_data['result']['face_list']这些字典中。在 options 字典中,加入一个键为'face_field'的元素,它的值为字符串存储的属性名称。

2024-05-21 08:30:00 880

原创 【class12】人工智能初步(人脸识别(2))

配置options参数不仅让我们成功检测到图中的所有面孔,并依次将每个面孔的【位置信息】、【检测质量】与【年龄预测】等信息,记录在ret_data['result']['face_list']这些字典中。在 options 字典中,加入一个键为'max_face_num'的元素,该元素对应的整数值就是程序能够从图片中识别到的最多人脸数目。如果文件已经存在,则可以在文件的末尾追加内容,并且可以读取文件内容。在 options 字典中,加入一个键为'face_field'的元素,它的值为字符串存储的属性名称。

2024-05-20 09:00:00 1199

原创 【class11】人工智能初步(人脸识别(1))

是人脸识别的Python SDK客户端,它为使用人脸识别的开发人员提供了一系列的功能方法。若要实现类似于“美颜”、“脸部卡通特效”等更精准的脸部修改,需要程序在检测到人脸的同时,进入【人脸识别】页面以后,我们需要通过【去创建】功能,创建一个私人使用的人脸识别应用。在今天的课程中,通过创建AipFace,我们完成了开发“口罩佩戴检测”系统的第一步。利用一些第三方接口,即API,能够让我们更小成本的实现人脸识别的过程。判断的图案越复杂,程序的计算量就会越大,获取结果的时间也就越长。

2024-05-19 17:13:48 951 1

原创 【class10】人工智能初步----批量化处理

要查看文件夹中所有的文件,该文件夹的路径为imgroot ,就将该路径传入到 os.listdir() 函数中。的方式拼接变量 imgroot、"/"、变量 imgname,将拼接后的字符串赋值给变量 filePath。使用 os.listdir() 函数获取文件名后,返回一个列表,列表中的每个元素是文件夹中的每个文件。每个上层标签的字符数不一样,有的2个字的,比如动物、植物,有4个字的,比如自然风景。使用os.listdir()函数获取该路径下所有的照片,并赋值给变量imglist。

2024-05-17 10:15:00 802

原创 【class9】人工智能初步(处理单张图片)

例如:cat.jpg 要移动到'动物-猫'这个文件夹中,需要先检查 'img'文件夹中是否已经创建了名为'动物-猫'的文件夹。创建完文件夹,我们打开'img'文件夹就可以看到刚刚创建的'动物-猫'这个文件夹。及以后的版本中,字典记住了插入顺序,但这是一个实现细节,不应依赖于这一点来保证跨版本的一致性)。这几行高亮的代码,利用通用物体识别接口,对一张输入图片,输出其中的多个物体及场景标签。它接收两个参数,第一个参数是要移动的文件(夹)路径,第二个参数是目标文件(夹)的路径。

2024-05-16 08:00:00 1238

原创 【class8】人工智能初步(图像识别-----卷积神经网络)

这里,为了方便使用,先将AppID、API Key和Secret Key以字符串的形式,依次赋值给变量APP_ID、API_KEY和SECRET_KEY。但是网络的设计并不是简单的层数上的纵向堆叠,每一层的参数都需要不断反复的调试,投入大量的人力、物力和时间。即使一个简单的深度学习模型,跑一次数据的时间也短则数小时,长则数天,普通的电脑很难满足要求。大量的数据和参数需要大量的计算资源支持,因此越深越复杂的网络对计算资源的需求也越大。深度学习的许多研究成果,离不开对大脑认知原理的研究,尤其是视觉原理的研究。

2024-05-15 08:00:00 1248

原创 【class】人工智能初步(了解深度学习)

对于同样尺寸的一幅图,如果图像分辨率越高,则组成该图的图像像素数目越多,像素点也越小,图像越清晰、逼真,印刷的质量也就越好。我们的眼球转动一次的平均时间是200毫秒,如果把这每一次转动比作按下一次相机快门的话,一个2岁左右的孩子,已经看过上亿张现实世界的图片了。我们常说的某幅图像的分辨率是1280(长)×720(宽),指的就是这张图中的每一行都有1280个像素,每一列都有720个像素。面对陌生的事物,我们也很难认清。如果我们用不同的数字来表示不同的颜色,图像就可以表示为一个数字表,这就是计算机所看到的。

2024-05-14 08:15:00 807

原创 【class6】人工智能初步(选择一个合适的监督学习算法。)

通过这样的方式,第二层的感知器就能处理更复杂和更抽象的数据。细心的同学可能已经发现,我们在处理数据集时使用的是fit_transform()函数,但在处理没有标签的预测数据时使用的是transform()函数,为什么呢?因此,我们只需要使用transform(),这样就可以使用相同的均值和方差来对没有标签的数据进行转换,同时又避免了我们的模型学习预测数据的特征。那么对于没有标签的数据,如果使用fit()函数,则会重新计算一份新的特征均值和方差,这样的话我们的模型就会又学习一遍没有标签数据的特征。

2024-05-13 08:15:00 1413

原创 【class5】建立人工智能系统(2)

通过这样的方式,第二层的感知器就能处理更复杂和更抽象的数据。有了预测结果后,我们就可以通过对比【依靠模型生成的测试集标签数据test_pred】和【测试集原本的标签数据test_label】,来检验模型的准确率。因此,我们只需要使用transform(),这样就可以使用相同的均值和方差来对没有标签的数据进行转换,同时又避免了我们的模型学习预测数据的特征。那么对于没有标签的数据,如果使用fit()函数,则会重新计算一份新的特征均值和方差,这样的话我们的模型就会又学习一遍没有标签数据的特征。

2024-05-12 05:24:06 947

原创 【class4】建立人工智能系统(1)

而每条评论的文本特征则需要我们来提取。当我们提取评价的文本特征后,就可以发现,每一条评论的文本特征都有一一对应的“好评”或“差评”的标签。这里,我们将random_state参数赋值为1,该数字没有特殊含义,可以换成其它任意整型(int),它相当于一个种子参数,使得每次划分数据的结果一致。每次运行程序时,train_test_split()函数都是根据随机数来对数据进行“洗牌”,从而达到随机划分数据的效果。将需要进行划分的数据集的文本特征X,作为必选参数,传入到train_test_split()函数中。

2024-05-11 08:18:50 1161 1

原创 【class3】人工智能初步(词频统计)

函数,用于构造词袋模型,计算各个词语出现的次数。fit_transform() 会筛选出所有评价里前15个出现频率最高的词语,并对这些词语进行编号,然后依次统计每条评价里这些词语出现的次数。接下来,就需要构造词袋模型,从这些评价中提取所有出现过的词语,然后统计每个词出现的频率,即词频。找到商品评论中出现次数最多的词语,比如出现频率最高的前15个词,可能就找出了最能够描述这件商品的关键词。为了构造词袋模型,我们已经完成了处理分词结果的第一个步骤,将每条评价的分词结果以空格连接生成一个新的字符串。

2024-05-11 06:32:09 1085 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除