自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 playwright学习记录

在通过page的标签定位,打开多个不同网页时,可以用context进行管理所有的page页面;当定位到想要的页面时,通过page.bring_to_front()停留在改页面。page.locator('').fill(''),fill内用来输入相关信息,通常用于搜索框。page.locator(''),括号内可使用id定位、class定位或是xpath等方式。① 包括库的导入、playwright管理器的创建等。②locator的使用,实现标签定位,点击等方式。click(),在定位标签后进行点击。

2024-04-28 09:55:33 169 1

原创 selenium模拟登录B站

①创建浏览器对象时,webdriver.Chrome中有一个service的参数,用来存放驱动程序的路径,因此专门import 了 Service;② find_element函数中有个by参数,在解析xpath路径时,要通过by=By.XPATH这个参数。在使用ActionChains时,因为初始位置由左上角修改至中心位置,因此需要code_tag_half_width和code_tag_half_height两个参数数值。备注:验证码定位了好几次才找到正确的,此处可以考虑多次尝试。

2024-03-11 15:39:34 334 1

原创 对三国演义的简单数据分析

① 结合实际词频发现:孔明的出场频次实际为1352次(孔明821次,孔明曰385次,诸葛亮146次),玄德的出场频次实际为1220次(分别是玄德565次,玄德曰384次,刘备271次),曹操位列第三,为919次。文章中,荆州是出现频率较高的地名,可以侧面说明三国演义中荆州其重要的战略地理意义。② 孔明和玄德的出场部分携带“曰”字,侧面可以说明其长者的身份。ps:因单词中出现将军、丞相等名词不易分类,因此暂以忽略处理。针对词频前100个的单词,筛选出具备地理意义的单词。附:前100个的词频单词中的人物。

2024-02-20 15:17:14 246

原创 实操记录-词云图制作

第四步:统计列表中的单词及词频,主要使用的是collections中的Counter函数,由于counter函数计算单词和词频后word_dict为一个counter格式,后续不改也不影响做词云图。第三步:对文本进行分词,读取dataframe中的一列进行分词,并将分词后的无效信息进行剔除,最后保存在列表中。第二步:导入停用词,因在对文本进行分词时,会产生大量无效字符,因此要对一些感叹语、标点符号等无效信息进行处理。使用场景:直观展示文本频率,对比文字重要程度,突出重点文字。第五步:画词云图,各种调参数。

2024-01-23 16:10:42 373 1

原创 实操练习—批量处理:PDF文件转为word文件

第二步:定义函数:获取文件夹中的文件路径,并保存在列表,需输入的是PDF所在文件夹。变更字体的结果:用以上代码只将显示方块的文字修改,但总体可以保留全部文字。中途遇到的难题:文字在写入word中时,有些内容字体显示方块(方格)第三步:填写保存PDF文件的文件夹路径,获取PDF文件路径。第一步:定义函数:输入PDF文件的文件路径,即可获取文本。个人解决方式:变更字体,因此导入了Pt、qn等模块。后续难题:改变整体的文本字体格式,暂不开展编写。用途:批量提取pdf中的文本信息。

2024-01-23 13:40:21 470 1

原创 学习日记(总结1-数据类型中字符串的功能)个人总结

python学习用:字符串功能总结

2023-07-31 19:09:08 47 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除