fmc121104-CSDN博客

原创 word文档的写入（1）

我们来观察下右边的“成绩报告单模版.docx”，红色框出的就是我们需要填入信息的位置。能够发现，在这个Word文档中，我们需要写入的信息，既有在。，我们知道一个Word文档（Document）的基本组成单位是段落（Paragraph），而段落中的文本内容至少包含一个或多个样式块（run）。在Word文档中，找到一个需要插入信息的位置，并将信息插入到Word文件对应的位置中。之后，我们再学习，批量从Excel里读取信息，然后将信息批量加入Word文档中。在将信息写入Word文档前，我们需要先读取该文档。

2024-09-17 21:35:08 993

原创 word文档的读入（8）

东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]这里，我们通过了格式化的方式设置工作表对象["列号行号"]，具体代码为：sheet[f"A{index}"]。现在，我们已经读取到了所有需要获取的信息，也计算出了学生的选择题和填空题的分数。在编写代码的过程中，需要同时操作Excel与Word中的表格，容易混淆。

2024-09-17 21:33:40 524

原创 word文档的读入（7）

东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]

2024-09-12 13:00:15 658

原创 word文档的读入（6）

东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]

2024-09-12 12:53:48 1192

原创 word文档的读入（5）

东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]东临碣石", "行舟绿水前", "孤山寺北贾亭西", "断肠人在天涯", "故人具鸡黍", "一曲新词酒一杯", "何当共剪西窗烛", "误入藕花深处", "烟笼寒水月笼沙", "万籁此都寂", "初日照高林", "腾蛇乘雾"]，就可以得到对应的学生答案所在的段落索引。

2024-09-11 13:31:55 869

原创 word文档的读入（4）

使用split()函数以"-"分隔文件名，将第1部分班级信息赋值到学生数据字典的classInfo键里。使用os.path.splitext()函数获取文件名的前半段，并赋值给变量fileName。使用split()函数以"-"分隔文件名，将第2部分姓名信息赋值到学生数据字典的name键里。本例中，展示了读取学号的具体代码，也就是读取第四段的第二个样式块的文本内容。刚刚我们获取到的是段落和样式块对象，要想读取到真正的文本内容，需要通过。选择题的答案读取因为涉及到表格的读取，将在第四天的课程中学习。

2024-09-11 13:30:09 930

原创 Word文档的读入（3）

使用split()函数以"-"分隔文件名，将第1部分班级信息赋值到学生数据字典的classInfo键里。使用split()函数以"-"分隔文件名，将第1部分班级信息赋值到学生数据字典的classInfo键里。使用os.path.splitext()函数获取文件名的前半段，并赋值给变量fileName。使用split()函数以"-"分隔文件名，将第2部分姓名信息赋值到学生数据字典的name键里。使用split()函数以"-"分隔文件名，将第2部分姓名信息赋值到学生数据字典的name键里。

2024-09-10 15:08:34 488

原创 Word文档的读入【2】

填空题的第一题位于答题卡中的第9段，只需逐行读取到答题卡中的最后一个段落，然后和标准答案进行对比，便可以算出填空题的分数。表格中的第二行是学生填写的内容，只需依次读取这一行中的信息，然后和标准答案进行对比，便可以算出选择题分数。使用os.path.splitext()函数获取文件名的前半段，并赋值给变量fileName。使用split()函数以"-"分隔文件名，将第2部分姓名信息赋值到学生数据字典的name键里。使用split()函数以"-"分隔文件名，将第2部分姓名信息赋值到学生数据字典的name键里。

2024-09-10 15:05:02 1116

原创 Word文档的读取（1）

使用os.listdir()函数获取该路径下所有的答题卡名称列表，并赋值给变量allItems。现在，就可以在for循环里，根据答题卡的文件名来依次获取学生的班级和姓名信息，并将它们存储到。使用split()函数以"-"分隔文件名，将第2部分姓名信息赋值到学生数据字典的name键里。我们需要先获取文件名的前半段"x年级x班-xxx"，再分别获取其中的班级信息"单元格中的内容可以包含段落和表格，相当于独自构成了一个完整的Word文档。乔老师使用的是macOS系统的电脑，他将学生的答题卡保存到了路径为。

2024-09-09 22:18:19 914

原创 Excel文档的读入（4）

在这一行中，获取当前行中第 3 列（索引为 2, 因为索引从 0 开始）的值，代表商品名称，并赋值给 `productName` 变量。课程的最后，再来复习一下知识点吧。如果条件成立，则将当前订单的总价 `price` 加入到 `colaSold` 中，以累计“火龙果可乐”的销售额。这行代码从工作簿中获取名为“销售订单数据”的工作表，并将其赋值给变量 `orderSheet`，以便后续使用。最后逐个添加到一个列表。最后，使用 `print` 函数输出本月“火龙果可乐”的销售总额，格式化为指定的字符串。

2024-09-09 07:23:36 859

原创 Excel文档的读取（3）

如果是，就逐一把销售金额添加到colaSold变量里。接下来，我们需要在行遍历中逐行去判断哪些订单商品是“火龙果可乐”，并把对应的订单总价添加到当月售卖总金额里。，来获取列号对应的数字，比如传入参数“E”就会获取到数字5，表示“E”列是第5列。通过工作簿对象wb获取名为“销售订单数据”的工作表对象，并赋值给变量orderSheet。通过工作簿对象wb获取名为“销售订单数据”的工作表对象，并赋值给变量orderSheet。下一步，我们需要在工作表里，逐行去判断哪些订单商品是“火龙果可乐”，并把对应的。

2024-09-08 10:24:55 1126

原创 Excel文档的读取【2】

为了找到计算单个月份“火龙果可乐”销售额的方法，我们在之前的课程中学习了如何读取工作表，接下来我们要学习逐行读取和操作工作表中的数据。在工作簿名称后添加data_only=True，并使用print输出orderSheet里I10单元格公式计算后的值。要访问单元格里的值，我们可以在单元格对象后加一个。通过工作簿对象wb获取名为“销售订单数据”的工作表对象，并赋值给变量orderSheet。使用print输出工作簿中所有的工作表名称。每个工作簿中，都包含一个或多个工作表。读取了工作簿对象后，下一步就是。

2024-09-08 10:23:04 367

原创 Excel文档的读取（1）

剩下的三步将在明天和后天的课程中进行学习，并最终解决阿珍的问题。这样的工具进行多表合一，也会有同一个工作表太大导致电脑太卡和所有Excel文件格式必须一样这样的问题。但当有非常大量的Excel文件需要处理时，每一个Excel文件单独去做数据透视也会消耗大量的时间。当这行订单的C列的商品名是“火龙果可乐”的时候，我们需要把符合要求的订单I列的总价逐个加起来。熟悉使用Excel的同学应该都知道，在单个Excel表格里想要分商品计算总销售额，使用。在工作薄页面的左下方可以进行工作表的切换和增删。

2024-09-07 12:57:25 1282

原创照片信息的读取与分类（1）

利用格式化字符串拼出文件夹名称，并赋值给变量targetFolderName，再使用os.path.join()函数拼出分类文件夹的路径, 并赋值给photoTargetPath变量。将示例中拍摄日期分隔成日期和时间，把分隔后的列表赋值给变量takeTimeParts，然后使用两个print分别输出日期和时间。使用os.path.exists()函数判断照片分类的文件夹是否存在，如果不存在，就使用os.mkdir()函数创建文件夹。再把拍摄日期通过冒号分隔，分成年、月、日三部分，赋值给变量。

2024-09-07 12:55:18 855

原创照片信息的读取与分类（1）

将照片备份文件夹的相对路径赋值给变量backupPhotoPath，使用os.listdir()函数获取该文件夹下所有的文件列表并赋值给变量photoList，然后遍历该文件列表，并在遍历代码中输出文件名。为了方便后续代码的操作，我们先来查看一下现在这个Python程序运行的工作目录在哪里，然后将工作目录切换到移动硬盘的路径下。导入ezexif模块，然后在遍历文件列表的代码中获取照片的拍摄时间，并使用print输出。，指直接以文件或文件夹的名称开头，相对于工作目录的路径位置。

2024-09-06 11:32:47 843

原创 python文件自动分类（5）

使用os.path.join()函数拼接分类文件夹路径：Excel文件。使用os.path.join()函数拼接分类文件夹路径：Word文件。使用os.path.join()函数拼接分类文件夹路径：PDF文件。使用os.path.join()函数拼接分类文件夹路径：PPT文件。使用os.path.join()函数拼接分类文件夹路径：图片文件。使用os.path.join()函数拼接分类文件夹路径：视频文件。使用os.path.join()函数拼接分类文件夹路径：其他文件。使用for循环遍历所有文件(夹)

2024-09-06 11:22:39 866

原创 python文件自动化（4）

所以我们只需在程序判断 itemPath 不是一个文件夹的时候，使用 shutil.move() 函数将itemPath路径的文件移动到targetPath路径的文件夹下。判断当itemPath不是文件夹时，使用shutil.move()函数移动itemPath路径的文件到targetPath路径的文件夹。函数可以用来移动文件或文件夹。它接收两个参数，第一个参数是要移动的文件（夹）路径，第二个参数是目标文件（夹）的路径。它接收两个参数，第一个参数是要移动的文件（夹）路径，第二个参数是目标文件（夹）的路径。

2024-09-05 12:39:46 1210

原创 python文件自动分类（3）

因此，要解决阿文的问题，我们在得到了目标文件夹的路径后，就可以使用 os.path.exists() 函数来判断目标文件夹是否已经存在。使用os.path.exists()函数判断目标文件夹是否存在，如果不存在，使用print输出目标路径。使用os.listdir()函数获取该路径下所有的文件(夹)，并赋值给变量allItems。使用os.listdir()函数获取该路径下所有的文件(夹)，并赋值给变量allItems。前面已经讲了利用 os.path.exists() 函数判断文件夹是否存在。

2024-09-05 07:38:48 621

原创 Python文件自动分类（2）

根据常见后缀名列表，使用后缀名判断文件是什么类型，并使用print输出文件名和文件类型名称，不在列表中的类型输出为“其他文件”。返回的元组数据中，元组的第一个元素是文件名最后一个点号前面的部分，第二个元素是文件名最后一个点号和其后面的部分，即文件后缀名。返回的元组数据中，元组的第一个元素是文件名最后一个点号前面的部分，第二个元素是文件名最后一个点号和其后面的部分，即文件后缀名。在某些情况下，要判断的条件会较多，比如音频文件，需要判断的后缀名就有.wav .mp3 .mid .ape .flac这5种。

2024-09-04 13:41:37 965

原创如何用python计算销量（openpyxl模块的实际应用）

在这一行中，获取当前行中第 3 列（索引为 2, 因为索引从 0 开始）的值，代表商品名称，并赋值给 `productName` 变量。如果条件成立，则将当前订单的总价 `price` 加入到 `colaSold` 中，以累计“火龙果可乐”的销售额。这行代码从工作簿中获取名为“销售订单数据”的工作表，并将其赋值给变量 `orderSheet`，以便后续使用。这行代码初始化一个变量 `colaSold`，用于累计本月“火龙果可乐”的销售额，初始值为 0。

2024-09-04 13:38:15 723

原创 Python文件自动分类

假如这样的步骤全部手动做下来耗时是6秒，在文件数量不多的情况下，比如10个文件，总共耗时一分钟其实是能够接受的。阿文将文件保存到路径 /Users/yequ/Downloads，我们需要获取该文件夹下所有的文件列表。当我们需要访问文件或文件夹时，路径就像现实中的地址一样，帮助我们找到目标文件或文件夹在什么位置。不管是何系统，除了文件路径有所差异，其它的知识点和操作步骤都是通用的。需要注意的是，macOS系统中，没有盘符的概念，所有的路径都是从。的字母和一个英文冒号，表示文件或文件夹具体是在哪个盘的路径下。

2024-09-03 23:24:23 637

原创【class19】人工智能初步---语音识别（5）

不同之处在于：detect_nonsilent()通过传入静音段的参数min_silence_len, silence_thresh去除静音段，来定位语音段的位置，从而获取语音段时间信息，返回值为列表。第16行，使用detect_nonsilent()获取语音段时间信息。使用str()函数将mspart转化为字符串，再通过zfill()函数返回长度为3的字符串，位数不够前面补0。使用str()函数将spart转化为字符串，再通过zifill()函数返回长度为2的字符串，位数不够前面补0。

2024-05-29 16:22:27 803

原创【class18】人工智能初步----语音识别（4）

批量调用接口识别音频：在for循环结果的循环体内，调用语音识别函数audio2text()，获取语音识别结果，并输出识别结果，实现批量调用接口识别音频。语音识别的输入和输出都是不定长序列，换句话说，就是每次输入的语音和输出的文字长度不定。比如，时长不一样的语音，采样后所得的数字序列是不一样长的。本节课，我们学习了语音识别模型的结构和原理，同时调用创建好的AipSpeech客户端实现了语音转文字功能。注意：该接口只能将60秒以下的音频识别为文字，若音频时长超过限制，可切分为多段音频进行识别。

2024-05-28 18:47:00 2161

原创【class17】人工智能初步-----语音识别（3）

第17行，使用split_on_silence()切分音频，并传入参数sound,min_silence_len,silence_thresh。完成模块的导入后，我们利用语音端点检测的原理：对split_on_silence类，设置适当的参数。音频这个东西，看波形就可以看出来有没有声音，哪部分是语音段，哪部分是静音段一目了然。文件保存至路径变量path，路径为/Users/yequ/下的音频文件，文件名从音乐片段0.wav-音乐片段11.wav音乐。

2024-05-27 11:35:07 1362

原创【class15】人工智能初步----语音识别（2）

使用AudioSegment类中的from_wav()函数读取音频文件"大话西游.wav"。是最常见的声音文件格式之一，一种标准的数字音频文件，该文件能记录各种单声道或立体声的声音信息，并能保证声音不失真。使用VideoFileClip类中的.audio属性获取加载后视频文件的音频。使用.audio属性可以获取视频中的音频对象。使用AudioSegment类中的from_wav()函数读取音频文件"大话西游.wav"第7行，使用VideoFileClip类中的audio方法获取加载后视频文件的音频；

2024-05-26 10:34:57 734

原创【class14】人工智能初步之语音识别

在这个过程中，耳朵就相当于声音的接收端，大脑相当于GPU，对声音进行处理，最终得出一个判定的结果。我们知道电脑只能对数字进行处理分析，语音识别模型的输入和输出没有我们想象的那么简单：输入和输出不一定是简单的语音和文字。比如，音位字典告诉电脑，cat由K、AE、T三个音位组成，遇到这三个音位组合时，就输出cat这个单词。与图像识别类似，人类对自己熟悉的语言，理解起来很简单，遇到不熟悉的语言，理解起来就比较困难了。在深度学习没有流行之前，以音位为输出是很常见的，因为音位和声音的对应关系比较强，机器更好理解。

2024-05-25 09:15:00 983

原创【class14】创建自己的OCR系统

想要从字典result中取出参数'words_result'的值，得到文字信息，可以用result['words_result']。列表中的每一个元素又是一个字典，我们想要获得'words'参数中的文字信息就需要指定键'words'。示例中添加了参数detect_direction，将其设置为"true"，就能检测图像的朝向。这几行高亮的代码，利用「通用文字识别（高精度版）」接口，对一张输入图片，识别出所有文字。最后，为了保存记录，我们试着将刚刚获得的所有文字信息写入最简单的文本文件，方便查看。

2024-05-24 08:30:00 972

原创【class13】人工智能初步（OCR技术初步）

比如，习惯了复制粘贴后，遇上想借鉴的纸质文件、需付费才能复制的文档、无法选取的PDF文件或图片，只能一个字一个字重新敲？背景复杂，字体多样，颜色多变，方向任意，大小不同，语言不统一，板式不固定这些问题。每一层的每个阀门都与下一层的所有阀门相连，组成一个从前到后，逐层完全连通的水流系统。在电商行业中，智能识别广告图中的文字内容，过滤广告中的不良信息，为企业降低业务风险。实际上，对我们来说，OCR一点儿也不陌生。再看一看，是不是标记了"中"字的出口水流最多，如果不是，再调节所有的阀门。

2024-05-23 08:45:00 1252

原创【class13】人工智能初步（人脸识别（4））

检测到的面孔【位置信息】与配置options参数时添加的【检测质量】、【年龄预测】信息，也会依次记录在ret_data['result']['face_list']这些字典中。当识别到多张人脸时，ret_data['result']['face_list'] 列表里会存储多个字典，且每个字典都对应了一个人脸的基本信息。其中，对五官的遮挡检测存储在face_msg['quality']['occlusion']，ret_data['result']['face_list'] 中用列表存储每张人脸的信息；

2024-05-22 08:45:00 959 1

原创【class12】人工智能初步（人脸识别（3））

配置options参数不仅让我们成功检测到图中的所有面孔，并依次将每个面孔的【位置信息】、【检测质量】与【年龄预测】等信息，记录在ret_data['result']['face_list']这些字典中。检测到的面孔【位置信息】与配置options参数时添加的【检测质量】、【年龄预测】信息，也会依次记录在ret_data['result']['face_list']这些字典中。在 options 字典中，加入一个键为'face_field'的元素，它的值为字符串存储的属性名称。

2024-05-21 08:30:00 880

原创【class12】人工智能初步（人脸识别（2））

配置options参数不仅让我们成功检测到图中的所有面孔，并依次将每个面孔的【位置信息】、【检测质量】与【年龄预测】等信息，记录在ret_data['result']['face_list']这些字典中。在 options 字典中，加入一个键为'max_face_num'的元素，该元素对应的整数值就是程序能够从图片中识别到的最多人脸数目。如果文件已经存在，则可以在文件的末尾追加内容，并且可以读取文件内容。在 options 字典中，加入一个键为'face_field'的元素，它的值为字符串存储的属性名称。

2024-05-20 09:00:00 1199

原创【class11】人工智能初步（人脸识别（1））

是人脸识别的Python SDK客户端，它为使用人脸识别的开发人员提供了一系列的功能方法。若要实现类似于“美颜”、“脸部卡通特效”等更精准的脸部修改，需要程序在检测到人脸的同时，进入【人脸识别】页面以后，我们需要通过【去创建】功能，创建一个私人使用的人脸识别应用。在今天的课程中，通过创建AipFace，我们完成了开发“口罩佩戴检测”系统的第一步。利用一些第三方接口，即API，能够让我们更小成本的实现人脸识别的过程。判断的图案越复杂，程序的计算量就会越大，获取结果的时间也就越长。

2024-05-19 17:13:48 951 1

原创【class10】人工智能初步----批量化处理

要查看文件夹中所有的文件，该文件夹的路径为imgroot ，就将该路径传入到 os.listdir() 函数中。的方式拼接变量 imgroot、"/"、变量 imgname，将拼接后的字符串赋值给变量 filePath。使用 os.listdir() 函数获取文件名后，返回一个列表，列表中的每个元素是文件夹中的每个文件。每个上层标签的字符数不一样，有的2个字的，比如动物、植物，有4个字的，比如自然风景。使用os.listdir()函数获取该路径下所有的照片，并赋值给变量imglist。

2024-05-17 10:15:00 802

原创【class9】人工智能初步（处理单张图片）

例如：cat.jpg 要移动到'动物-猫'这个文件夹中，需要先检查 'img'文件夹中是否已经创建了名为'动物-猫'的文件夹。创建完文件夹，我们打开'img'文件夹就可以看到刚刚创建的'动物-猫'这个文件夹。及以后的版本中，字典记住了插入顺序，但这是一个实现细节，不应依赖于这一点来保证跨版本的一致性）。这几行高亮的代码，利用通用物体识别接口，对一张输入图片，输出其中的多个物体及场景标签。它接收两个参数，第一个参数是要移动的文件（夹）路径，第二个参数是目标文件（夹）的路径。

2024-05-16 08:00:00 1238

原创【class8】人工智能初步（图像识别-----卷积神经网络）

这里，为了方便使用，先将AppID、API Key和Secret Key以字符串的形式，依次赋值给变量APP_ID、API_KEY和SECRET_KEY。但是网络的设计并不是简单的层数上的纵向堆叠，每一层的参数都需要不断反复的调试，投入大量的人力、物力和时间。即使一个简单的深度学习模型，跑一次数据的时间也短则数小时，长则数天，普通的电脑很难满足要求。大量的数据和参数需要大量的计算资源支持，因此越深越复杂的网络对计算资源的需求也越大。深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。

2024-05-15 08:00:00 1248

原创【class】人工智能初步（了解深度学习）

对于同样尺寸的一幅图，如果图像分辨率越高，则组成该图的图像像素数目越多，像素点也越小，图像越清晰、逼真，印刷的质量也就越好。我们的眼球转动一次的平均时间是200毫秒，如果把这每一次转动比作按下一次相机快门的话，一个2岁左右的孩子，已经看过上亿张现实世界的图片了。我们常说的某幅图像的分辨率是1280（长）×720（宽），指的就是这张图中的每一行都有1280个像素，每一列都有720个像素。面对陌生的事物，我们也很难认清。如果我们用不同的数字来表示不同的颜色，图像就可以表示为一个数字表，这就是计算机所看到的。

2024-05-14 08:15:00 807

原创【class6】人工智能初步（选择一个合适的监督学习算法。）

通过这样的方式，第二层的感知器就能处理更复杂和更抽象的数据。细心的同学可能已经发现，我们在处理数据集时使用的是fit_transform()函数，但在处理没有标签的预测数据时使用的是transform()函数，为什么呢？因此，我们只需要使用transform()，这样就可以使用相同的均值和方差来对没有标签的数据进行转换，同时又避免了我们的模型学习预测数据的特征。那么对于没有标签的数据，如果使用fit()函数，则会重新计算一份新的特征均值和方差，这样的话我们的模型就会又学习一遍没有标签数据的特征。

2024-05-13 08:15:00 1413

原创【class5】建立人工智能系统（2）

通过这样的方式，第二层的感知器就能处理更复杂和更抽象的数据。有了预测结果后，我们就可以通过对比【依靠模型生成的测试集标签数据test_pred】和【测试集原本的标签数据test_label】，来检验模型的准确率。因此，我们只需要使用transform()，这样就可以使用相同的均值和方差来对没有标签的数据进行转换，同时又避免了我们的模型学习预测数据的特征。那么对于没有标签的数据，如果使用fit()函数，则会重新计算一份新的特征均值和方差，这样的话我们的模型就会又学习一遍没有标签数据的特征。

2024-05-12 05:24:06 947

原创【class4】建立人工智能系统（1）

而每条评论的文本特征则需要我们来提取。当我们提取评价的文本特征后，就可以发现，每一条评论的文本特征都有一一对应的“好评”或“差评”的标签。这里，我们将random_state参数赋值为1，该数字没有特殊含义，可以换成其它任意整型（int），它相当于一个种子参数，使得每次划分数据的结果一致。每次运行程序时，train_test_split()函数都是根据随机数来对数据进行“洗牌”，从而达到随机划分数据的效果。将需要进行划分的数据集的文本特征X，作为必选参数，传入到train_test_split()函数中。

2024-05-11 08:18:50 1161 1

原创【class3】人工智能初步（词频统计）

函数，用于构造词袋模型，计算各个词语出现的次数。fit_transform() 会筛选出所有评价里前15个出现频率最高的词语，并对这些词语进行编号，然后依次统计每条评价里这些词语出现的次数。接下来，就需要构造词袋模型，从这些评价中提取所有出现过的词语，然后统计每个词出现的频率，即词频。找到商品评论中出现次数最多的词语，比如出现频率最高的前15个词，可能就找出了最能够描述这件商品的关键词。为了构造词袋模型，我们已经完成了处理分词结果的第一个步骤，将每条评价的分词结果以空格连接生成一个新的字符串。

2024-05-11 06:32:09 1085 2

空空如也

空空如也